いままさにビッグデータ活用が始まっている
ビッグデータという言葉には、すでにちょっと食傷気味という方もいるだろう。そんな状況ではあるが、確実にビッグデータを活用し成功しつつある事例も聞こえてくる。さらには、ビッグデータ分野で意外な企業が協業し、新たなサービスを展開といったニュースも飛び込んでくる。ここにきて、バズワードからの脱皮が図られつつあるようだ。
そんな中、エンバカデロ・テクノロジーズが、「ビッグデータ時代の実践的データ活用」というセミナーを2月27日、都内で開催した。ビッグデータのセミナーでは、莫大なデータを格納し効率的に処理するデータベース技術や、データサイエンティストなど高度なデータ分析に関わるものが多い。それらに対し今回のセミナーは、データマネージメント、データモデリングに注目しビッグデータにアプローチしているところが興味深い。
このセミナーで、「ビッグデータでここが変わる、ここが変わらない - いま、データアーキテクトにとってしっておかなくてはならないデータ活用のポイント -」と題し講演を行ったのは、データモデリングの専門家でもある株式会社データアーキテクトのITコンサルタント 真野 正氏だ。
真野氏は、自身によるビッグデータの定義として、Webアクセスやストリーミングデータのような非構造化データ、従来リレーショナルデータベースに格納してきた売上データなどをより粒度を細かくし蓄積期間を長期にしたもの、そしてTwitterなどデータ発生頻度の極めて高いデータを挙げた。そして、ビッグデータの背景技術には「CAP定理」があると説明する。CAP定理のCAPとは、Consistency(整合性)、Availability(可用性)、Partition(分断耐性)という3つの頭文字。分散コンピューティング環境においては、同時にこの3つを保証することは困難だ。
「たとえば、リレーショナルデータベースでPartitionをとろうとすると、整合性や可用性が犠牲になります。」(真野氏)
これが、莫大なデータを扱おうとすると顕著な課題となり、ビッグデータの活用を妨げる1つの要因にもなっているわけだ。
ビッグデータ活用にはマスターデータ管理手法が有効
続いて紹介したのが、DAMA-DMBOKのデータマネージメント機能とビッグデータの関係について。DMBOKとは、Data Management Associationが策定した「Data Management Body of Knowledge」のことであり、データマネージメントの機能を10に分類し整理している。このDMBOKの改訂が現在検討されており、ビッグデータに関する項目の取り込みがなされつつある。
ビッグデータアーキテクチャ、モデリングテクニック、さらにはファイルストレージシステムとしてHadoop、NoSQL、そしてデータ移動/サービス、構造化データ/非構造化データが取り込まれる予定だ。このように、データマネージメントという実績ある世界からも、ビッグデータへのアプローチは確実に始まっている。
さまざまなアプローチは始まっているが、今ひとつユーザーによるビッグデータ活用が進まない。そこには、どのような課題があるのか。「社内の既存データが整理されていないので、ビッグデータに新たに取り組むのは難しいという認識がある」と真野氏。
データの量、発生頻度、種類が増えている中、利用しているデータベースはすでに複雑化しており十分な管理ができていない。仮に統合データウェアハウスがあっても、そこにデータを取り込むためのETLプロセスが複数あり、これもまた複雑化する。マスターデータ管理を実現しないと、全社レベルでの数字を見られないことは認識しているが、その実現にはマスターデータ管理者を置く必要があるが、それもままならない。また、基幹系と情報系のシステム間で、データ遮断がある。
このような課題の中で、ビッグデータ活用を行うには何をしたらいいのか。真野氏は「まず第一に、データの品質の確保が大事です。有効なデータになっていないと、きちんとした分析はできない」と言う。とはいえ、「たとえば、無闇に名寄せすることはビジネスの利益にはならない。何が品質として求められているのか、それを十分に考えてから行う必要がある」と真野氏は指摘する。
そして、品質確保の大原則は、一元管理であり1箇所で管理することだと言う。こういったことを実現していくためには、企業にチーフ・データ・オフィサーといった役職の人を置くべきで、その上でデータサイエンティストを育成する。さらに現場にはデータスチュワードと呼ばれる人間を配し、現場レベルでデータ品質を確保し管理することも大事だと言う。
基本的には、これらを行った上でインターネット上から収集できるようなデータを扱うべきだ。そもそも「インターネットから集められるデータは、品質が低い。活用するには、品質を向上し、データモデルを構築する必要あります」とのこと。これには、まさに企業内でのマスターデータ管理の手法が応用できるのだ。
最後に真野氏は、企業が実際にデータ活用を行う際に、ステージに分けステップを踏みながら徐々に活用度合いを上げていく方法を紹介した。システムが分断化し事業部門をまたがったデータ集計が行えない第一ステージにいる企業も少なくない。そして、次の第二ステージでは、統合ERPの導入などで会社の単位で製品事業別の売り上げなどが把握できるようになる。
第三ステージではデータウェアハウスを構築し、マスターデータ管理を行う。このレベルまでくれば、連結管理会計が実現できる。第四ステージが連結ベースでエンタープライズデータウェアハウスが構築できる段階だ。ここまでくれば、かなりのデータ分析、レポーティングが行えるだろう。最後の第五ステージが、それをさらに一歩進めデータの戦略的活用だ。ここまで来て初めて、ビッグデータの活用を考えるのが理想。必ずしもステップを順に踏まなくてもいいかもしれないが、第一や第二ステージからいきなりビッグデータ活用を考えるのは無謀だろう。きちんとしたデータモデリング、データマネージメントがあって初めて、ビッグデータを活用できることになる。
本セミナーのPDF資料が、こちらからダウンロードいただけます。
ビッグデータ活用のために企業内の情報地図を作れ
「まずはデータとして何があるかを把握する。何がどこにあるのか、何が入っているのかが分からないと始められません。そのためには、データガバナンスが必要です」と言うのは、エンバカデロ・テクノロジーズのエバンジェリスト 高橋智宏氏だ。データガバナンスが求められる背景には、企業内にさまざまなデータベースが存在することを挙げる。
高橋氏は、企業のシステムがサイロ化された「レベル0」の状態では、まずは他人が見て分かるようにすることだと言う。そのためには標準ポリシーを定めて、それに基づいたデータ管理を行う。これが「レベル1」だ。レベル2では、データ管理のメトリックスが整備され、いよいよ組織全体でデータを活用できる。レベル3は、データガバナンスが文化として定着し、データ活用が行える成熟段階であり、ここでビッグデータが扱えるようになると言う。実際には、レベル0と1の間に0.5という準備段階があり、企業内でシステムやデータの管理、共有を行う。このように、真野氏と同様5つのステップがあると言う。
そして、「データガバナンスというのは、メタデータの管理手法であり、データ活用緒基礎。コンプライアンスをもサポートして共有し、その結果として企業は競争力を高めることができる」と高橋氏。データガバナンスは目標であり抽象的なもの。これに対してシステムやデータベース、そこに格納されているデータなどは対象であり具体的なもの。2つの間にはギャップがあり、これらを結び付けるのがアーキテクチャ。このアーキテクチャの部分を提供しているのがエンバカデロ・テクノロジーズだと言う。
目標に進むには詳細な地図が必要、企業内のデータ情報の地図を作ることができるのがER/Studioというツールだ。これを活用することで、データ資産の可視化、ETLの文書化、情報の格納と共有が容易に実現できる。そのためにコンサルタントを雇い、高い費用が発生するものではないと高橋氏は説明する。
ツールは理想と現実のギャップを埋めてくれる
「理想的なデータ活用とは、いろいろな部署が袖手しているデータを、一元的に管理してビジネスニーズに基づいてさまざまなデータソースを使って分析できるようにすること」と言うのは、エンバカデロ・テクノロジーズのシニアエンジニア 米澤 千賀子氏だ。これを実現するためには、データ品質を確保し、システム間の壁を排除する必要がある。そのためには、具体的なデータ管理の仕組みと基盤がいると説明する。
一口にデータ管理と言っても、ハードウェア、ストレージ、障害からの復旧、セキュリティなどさまざまな要素がある。理想はシステム間の壁がなく、統一されたデータベースがあり、欲しいデータがすぐに取り出せる状況。現実は、部門ごとに壁があり、レスポンスの遅いシステムがある。「ハードウェアの更新やメモリを増やしてレスポンスを改善するという方法もあるが、問題の根本的な解決にはなりません。ハードウェアによる力業は、システムの肥大化につながります」と指摘する。
そして、理想のためにはツールを使うのが早道だと言う。一元管理のためにベンダーの異なる複数のデータベースを、エンバカデロ・テクノロジーが提供する1つのツールで管理できる。その他にもレスポンス改善につながる負荷テストやSQLチューニングなどもDB Optimizerがあれば1つのツールで容易に管理可能。データベースのベンダーごとに異なる管理ツールの使い方を憶え、複数のツールを使いこなす必要はなくなる。
「ツールは、理想と現実のギャップを埋めるためのもの。ツールを使って効率をアップし、基盤をがっちりと管理して今後のクラウドへの対応やビッグデータの活用に向かっていくことが大事」と米澤氏。ツールを使いこなすことで、ビッグデータの活用に大きく踏み出すことができる。ビッグデータ活用へのアプローチは、どうしてもすぐにデータの規模やバラエティ、さらには高度な統計分析という話題になりがちだ。とはいえ、その前にやるべきは、企業全体のデータガバナンスであり、データマネージメント。それが結局は、ビッグデータ活用成功への近道になりそうだ。
本セミナーのPDF資料が、こちらからダウンロードいただけます。