いままさにビッグデータ活用が始まっている
ビッグデータという言葉には、すでにちょっと食傷気味という方もいるだろう。そんな状況ではあるが、確実にビッグデータを活用し成功しつつある事例も聞こえてくる。さらには、ビッグデータ分野で意外な企業が協業し、新たなサービスを展開といったニュースも飛び込んでくる。ここにきて、バズワードからの脱皮が図られつつあるようだ。
そんな中、エンバカデロ・テクノロジーズが、「ビッグデータ時代の実践的データ活用」というセミナーを2月27日、都内で開催した。ビッグデータのセミナーでは、莫大なデータを格納し効率的に処理するデータベース技術や、データサイエンティストなど高度なデータ分析に関わるものが多い。それらに対し今回のセミナーは、データマネージメント、データモデリングに注目しビッグデータにアプローチしているところが興味深い。
このセミナーで、「ビッグデータでここが変わる、ここが変わらない - いま、データアーキテクトにとってしっておかなくてはならないデータ活用のポイント -」と題し講演を行ったのは、データモデリングの専門家でもある株式会社データアーキテクトのITコンサルタント 真野 正氏だ。
真野氏は、自身によるビッグデータの定義として、Webアクセスやストリーミングデータのような非構造化データ、従来リレーショナルデータベースに格納してきた売上データなどをより粒度を細かくし蓄積期間を長期にしたもの、そしてTwitterなどデータ発生頻度の極めて高いデータを挙げた。そして、ビッグデータの背景技術には「CAP定理」があると説明する。CAP定理のCAPとは、Consistency(整合性)、Availability(可用性)、Partition(分断耐性)という3つの頭文字。分散コンピューティング環境においては、同時にこの3つを保証することは困難だ。
「たとえば、リレーショナルデータベースでPartitionをとろうとすると、整合性や可用性が犠牲になります。」(真野氏)
これが、莫大なデータを扱おうとすると顕著な課題となり、ビッグデータの活用を妨げる1つの要因にもなっているわけだ。
ビッグデータ活用にはマスターデータ管理手法が有効
続いて紹介したのが、DAMA-DMBOKのデータマネージメント機能とビッグデータの関係について。DMBOKとは、Data Management Associationが策定した「Data Management Body of Knowledge」のことであり、データマネージメントの機能を10に分類し整理している。このDMBOKの改訂が現在検討されており、ビッグデータに関する項目の取り込みがなされつつある。
ビッグデータアーキテクチャ、モデリングテクニック、さらにはファイルストレージシステムとしてHadoop、NoSQL、そしてデータ移動/サービス、構造化データ/非構造化データが取り込まれる予定だ。このように、データマネージメントという実績ある世界からも、ビッグデータへのアプローチは確実に始まっている。
さまざまなアプローチは始まっているが、今ひとつユーザーによるビッグデータ活用が進まない。そこには、どのような課題があるのか。「社内の既存データが整理されていないので、ビッグデータに新たに取り組むのは難しいという認識がある」と真野氏。
データの量、発生頻度、種類が増えている中、利用しているデータベースはすでに複雑化しており十分な管理ができていない。仮に統合データウェアハウスがあっても、そこにデータを取り込むためのETLプロセスが複数あり、これもまた複雑化する。マスターデータ管理を実現しないと、全社レベルでの数字を見られないことは認識しているが、その実現にはマスターデータ管理者を置く必要があるが、それもままならない。また、基幹系と情報系のシステム間で、データ遮断がある。
このような課題の中で、ビッグデータ活用を行うには何をしたらいいのか。真野氏は「まず第一に、データの品質の確保が大事です。有効なデータになっていないと、きちんとした分析はできない」と言う。とはいえ、「たとえば、無闇に名寄せすることはビジネスの利益にはならない。何が品質として求められているのか、それを十分に考えてから行う必要がある」と真野氏は指摘する。
そして、品質確保の大原則は、一元管理であり1箇所で管理することだと言う。こういったことを実現していくためには、企業にチーフ・データ・オフィサーといった役職の人を置くべきで、その上でデータサイエンティストを育成する。さらに現場にはデータスチュワードと呼ばれる人間を配し、現場レベルでデータ品質を確保し管理することも大事だと言う。
基本的には、これらを行った上でインターネット上から収集できるようなデータを扱うべきだ。そもそも「インターネットから集められるデータは、品質が低い。活用するには、品質を向上し、データモデルを構築する必要あります」とのこと。これには、まさに企業内でのマスターデータ管理の手法が応用できるのだ。
最後に真野氏は、企業が実際にデータ活用を行う際に、ステージに分けステップを踏みながら徐々に活用度合いを上げていく方法を紹介した。システムが分断化し事業部門をまたがったデータ集計が行えない第一ステージにいる企業も少なくない。そして、次の第二ステージでは、統合ERPの導入などで会社の単位で製品事業別の売り上げなどが把握できるようになる。
第三ステージではデータウェアハウスを構築し、マスターデータ管理を行う。このレベルまでくれば、連結管理会計が実現できる。第四ステージが連結ベースでエンタープライズデータウェアハウスが構築できる段階だ。ここまでくれば、かなりのデータ分析、レポーティングが行えるだろう。最後の第五ステージが、それをさらに一歩進めデータの戦略的活用だ。ここまで来て初めて、ビッグデータの活用を考えるのが理想。必ずしもステップを順に踏まなくてもいいかもしれないが、第一や第二ステージからいきなりビッグデータ活用を考えるのは無謀だろう。きちんとしたデータモデリング、データマネージメントがあって初めて、ビッグデータを活用できることになる。
本セミナーのPDF資料が、こちらからダウンロードいただけます。