ストリーム・コンピューティングでビッグデータにリアルタイム性を
過去のデータを分析するのであれば、集約したサマリーデータでも傾向を分析することはできる。そういった用途であれば、既存の大規模データウェアハウスの技術でもビッグデータの分析はある程度可能だろう。実際、多くのビッグデータのソリューションは、ビッグデータをいったんどこかに溜めたあとの話がほとんど。つまりは、大量データの中から効率的に必要なデータを抽出してくるというものなのだ。「ビッグデータから、今を知りたい。そしてすぐにアクションを起こしたいといった場合には、これでは十分ではありません」と土屋氏。そのためIBMではVelocity、つまり速さ、リアルタイム性もビッグデータでは重要だと主張している。
これを実現する技術基盤が、ストリーム・コンピューティングだ。Hadoopや大規模データベースはバッチでのローディング処理などでいったんビッグデータをデータベースに溜める。「バッチは、バケツに水をいったん入れてから処理します。これに対してストリームは、水を注ぎ口から注ぎながら処理するというものです」と土屋氏は説明する。この方法ならば、一度に処理するデータ量はそれほど大きくならず、強大なCPUリソースも必要ない。
ストリームデータの処理をするところにロジックを持たせ、「今」の分析結果からすぐに自動でアクションを起こすことも可能だ。「ビッグデータはデータの絶対量ではありません。構造化データであっても、非構造化データであっても、それを処理して分析しアクションに結び付ける速さが重要です」と土屋氏。分析からアクションまでの時間をいかに短くできるかは、ビッグデータから洞察を得てそれを使ったSmarter Planetを実現する際には大きなインパクトを持つことになる。このストリーム・コンピューティング技術を持っていることも、IBMのビッグデータソリューションの大きなアドバンテージだと言えるだろう。
IBMのビッグデータソリューションに包括されている各種技術要素は、昨今のビッグデータブームに合わせて登場したものではない。2008年から同社が全社レベルで取り組んできたSmarter Planetという活動の中で培われた技術群であり、むしろそれが今になってビッグデータというカテゴリーに当てはめられることになったと捉えることができる。なので、同社のビッグデータソリューションの多くは、すでに実績のあるものが多い。各国で地球をSmartにするために活用されている事例が数多くあるのだ。ビッグデータをどうしようかというアプローチではなく、Smarter Planetのためのテクノロジーであるというところにも、IBMには優位性がありそうだ。