10年前のユビキタスと何がちがうのか
鈴木: ビッグデータという言葉は現在のところ、はっきりとした定義は固まっていません。ですが私個人の意見としては、
・高解像度
・高頻度生成(リアルタイム)
・多様(非構造を含む)
であるデータを"ビッグデータ"と呼んでよいのでは、と思っています。データが高解像度化するということは、同じ現象をより細かく表現できるということですから、当然、データ量が増えます。そういったデータは種類も多様で、また頻繁に生成されれば、結果としてデータはビッグになる - これがビッグデータの現状ではないでしょうか。
10年前、ユビキタスという考え方に注目が集まりました。考え方としては正しかったと思いますが、そのコンセプトを実現するほどには情報通信技術の活用が成熟していなかったのではないでしょうか?その理由はなぜか。10年前の段階ではまだデータ量も十分でなければ、データを分析し活用するという社会基盤もありませんでした。しかし一方で、10年前の2001年という年はデータをめぐる非常にシンボリックな動きが数多く見られました。JRからSuicaが登場し、FOMAサービスが開始したのも2001年です。その後、ネットワークは帯域がどんどん太くなり、さらにGPSが携帯電話に標準搭載されるようになり、データを取り巻く環境は10年で様変わりしたといえます。現在は、地道ながらも自ずとデータが蓄積される基盤が出来上がりつつあると感じます。
現在はこの溜まってきたビッグデータを活用する段階に入ってきているのではないでしょうか。事業所内に溜まっている、ストレージのお荷物と呼ばれがちな"死蔵データ"をすこしずつ紐解いてみることで、だんだんと分析が進んでいくのでは…と期待しています。日立ではビッグデータの全体像をどのように捉え、データ分析から知見を得るにはどのような方法が有効だと定義しているのでしょうか。
人とモノが発信する社会にはデータのライフサイクルが必要
山口: 人が発信する情報に加えて、モノが発信する情報が社会にあふれるようになったということが、現在のビッグデータブームを語る上で非常に重要なキーとなります。先ほど言われたようなICカードやGPSのほか、物流システムや電力メーターで使われているセンサーが、どんどんしゃべりだす時代になったのです。人が発信する情報とモノが発信する情報がこのまま増え続ければ、2015年には法人向け国内ディスクストレージシステムの容量は5,000ペタバイトに跳ね上がると予想されています。これは2011年の5倍に相当する数字です。
このように、これまで誰も経験したことがない爆発的な量の"ビッグデータ"を活用するには、データのライフサイクルに応じた処理が必要だと日立は考えています。
データのライフサイクルのフェーズは
・リアルタイム監視
・蓄積/検索
・集計/分析
の3つに大きく分けられます。
大量のデータを瞬時に分析するリアルタイム監視はストリームデータ処理やインメモリによるデータ処理などで実現できますが、日立はこの分野のミドルウェア製品として「uCosminexus Stream Data Platform」を提供しています。