情報爆発の新たなフェーズ「ビッグデータ」
スピーカーとして登壇した日本IBMの野嵜功氏は、ビッグデータが備える特徴を次のように解説する。「以前言われた情報爆発は、それぞれの企業が内部に抱える文書データ量が急増する状況を指していた。一方、現在起きている情報爆発は企業と消費者の接点、つまり消費者に非常に近いところでデータ量が急増している状況を指している。ビッグデータと呼ばれるものだ」
ICカードやRFID、各種センサーデータ、携帯電話の通話記録、TwitterやFacebookをはじめとするソーシャルメディアへの書き込みなどを収集・分析することにより、企業は顧客や消費者の動向をリアルタイムに把握し、迅速なアクションを導き出せるようになる。
例えば、Twitterのつぶやきを分析すれば、その時点での社会の“気分”を把握し、ひいては経済動向を先取りできる可能性がある。すでに、米国ではTwitterのつぶやきから、3日後のダウ・ジョーンズ工業株の平均株価がどのように変化するかを86.7%の精度で予測できるという研究成果が発表されている。
昨今、日本でも注目を浴びているスマート・グリッドも、ビッグデータを有効活用したソリューションの好例だ。イタリアの電力会社ENELでは、2006年から各家庭の電力メーターのデータを15分ごとに自動的に収集・分析することで、送電を最適化する試みを始めており、すでに200万キロワットの電力削減を実現している。ちなみに15分ごとに集計する場合、月次集計の約3,000倍ものデータ量を処理する必要がある。
このような新しい情報活用を可能にしているのが、Hadoopやストリーム・コンピューティングといったデータ活用のための新しいテクノロジーたちだ。
米IBMと米オンタリオ工科大学が行った共同実験では、ストリームデータ処理の技術が使われている。新生児や未熟児に特有の「不意の心拍停止」などの医療リスクを大幅に低減させるためのシステムでは、血圧や体温、心拍数などのデータをストリームデータ処理基盤に入力。あらかじめ定められたアルゴリズムに従って処理を行い、異常と思われる傾向が発見された場合には、自動的に看護師や医師に連絡するような仕組みを構築した。各新生児の容態を関連付けて分析することにより、院内感染も早期に発見できるようになっている。
また、ある大手金融系企業では、1日あたり1億件のクレジットカード取引データを10年分蓄積し、詳細に分析するためのシステムを構築した。不正取引検知のためのバッチ処理をHadoopで書き換えることによって、処理時間を飛躍的に短縮することに成功。月一回だった実施頻度を増やせるようになった。
「コンピュータのCPU個数・性能とメモリ容量・性能は年々向上しているのに対して、ディスク装置の読み取り速度はさほど変わっていないため、大量のデータを処理する場合はディスクI/Oがネックになってしまう。そうした課題を解消するために、『発生したデータについては、ディスクに着地する前にメモリでできる処理は先にやってしまう』、あるいは、『ディスクに着地したビッグデータは、ディスクをずらっと並べてI/Oを分散、並列で処理を行う』といった発想から生まれたテクノロジーが登場、ニッチ市場からはみ出しつつあるのが現在の状況」(野嵜氏)
IBMの特設サイト「IODC Japan 2011動画ビデオとイベント・レポート公開」より、本講演のダイジェスト版ビデオがご覧いただけます。講演資料もダウンロードいただけますので、ぜひご利用ください。