ビッグデータ活用の効能
ビッグデータビジネスの各論に先立ち、取り扱う論点を整理した図を以下に示す。すべての概念を網羅するものではないが、キーワードの提示により本連載において取り扱う論点を共有したい。
論点は3つに大別される。すなわち、「a.どのようなデータソースをもとにビッグデータをつくるか」「b.どのような処理や機能によってビッグデータを利用するか」「c.ビッグデータの利用からどんな効能を得ることができるか」の3点である。
まず、「a.どのようなデータソースをもとにビッグデータをつくるか」としては、各種のセンサ技術由来データ、「オープン」を標榜するウェブサービスが提示するAPIを介して利用可能な各種データ、自らウェブサイトを運営しているのであれば当該サイトを訪問する利用者のログデータなどが相当する。
このような機械的なデータに加え、営業マンが顧客管理データベースに手入力する内容などもデータソースとなるし、公的機関が公開している大量の統計データなども当然にしてデータソースの一種と言えるだろう。
次に「b.どのような処理や機能によってビッグデータを利用するか」において関連商材・サービスの成熟が見られる。具体的には、大量データを蓄積するためのデータウェアハウス、データを分析可能な状態とするためのマスターデータマネジメント関連の技術やサービス、ビッグデータを処理する基盤ソフトとしてのHadoopなどの商材や技術群、NumPy, Scipyなどに代表される数理的な処理を安価で強力に推し進めるためのモジュール群などが挙げられるだろう。
加えてデータの秘匿と活用を両立させるための技術であるプライバシ保護データマイニング(PPDM:匿名化、秘密計算、再構築計算を含む)や統計的開示抑制(SDC)などに係る研究は、大量データのみを念頭において研究されている技術ではないが、ビッグデータ活用の状況下においても活用が期待される。
そして、ビッグデータ関連技術としてしばしば言及される技術として、データの蓄積を待たずに時々刻々と高速に処理するためのCEP (複合イベント処理)やストリーム・コンピューティングが挙げられる。
そして、なによりも「c.ビッグデータの利用からどんな効能を得ることができるか」という点に注視するべきであろう。以下、「結局のところ、ビッグデータビジネスが目的とするところは何なのか?ビッグデータはどのように利用しうるものであるのか?」という点について整理を試みたい。(次ページへ続く)