4つ目のV、そしてストリーム・コンピューティングがIBMのビッグデータの特長
「膨大で不確実な情報から、どのような価値を見出すのか、それが命題となっています」(塚本氏)
そのために利用できるテクノロジーとして提供しているのが、IBMが長年手がけている自然言語処理の技術だ。つぶやきのようなあいまいなテキスト情報を、そのまま解析できるのが強味。これに関しては、IBMが長年やってきたことであり、大きな優位性があると自信を見せる。
さらに、そういったあいまいな情報を含め、センサー情報など増え続けるデータを「すべて蓄積するのか?」と塚本氏は問いかける。
たしかに、HadoopベースのInfoSphere BigInsightsなどを活用して、莫大なあいまいなデータを高速に処理し有益な情報を見つけ出すことはできる。とはいえ、無尽蔵にストレージを用意できるわけではないし、さらには莫大なデータのすべてが有益な情報ではない。そこで、IBMが以前から取り組んでいるのが、ストリーム・コンピューティングだ。
「このストリームデータ処理に早くから着目しているのも、IBMのビッグデータソリューションの特長です。ストリーム・コンピューティングをうまく使えば、ビッグデータ分析のコストを下げられます」(塚本氏)
ストリームデータ処理の効果は、コストの低下だけではない。「データをストアしないという選択肢 ーストリーム・コンピューティングによる真のリアルタイム性の実現」というタイトルで講演したのは、日本アイ・ビー・エム インフォメーション・マネジメント事業部 テクノロジー・エバンジェリストの中林紀彦氏。
「データをリアルタイムに処理するというアーキテクチャが、今ものすごく注目されています」と言う中林氏。これは、データを溜め込んでから分析するのは、過去に何が起こったかを解析するもの。ある意味で、従来のリレーショナルデータベースが得意としてきた分野であり、仮に高速なインメモリデータベースになったとしても、過去に対する分析であることには変わりはない。
対して、データを溜め込まず、発生したデータがメモリ上にあるうちに集計、分析の処理をしてしまうのが、IBMが力を入れているストリーム・コンピューティングだと、中林氏は説明する。
「今までのデータベースのアーキテクチャとは異なり、新しいデータ処理アーキテクチャで実現しています。これは、20年に1度あるかないかのアーキテクチャの転換です」(中林氏)
Hadoopのような新しいデータベース技術、さらにはこのリアルタイム処理のストリーム・コンピューティングなどを活用していかないと、本当の意味でのビッグデータ活用はなし得ない、というのがIBMの主張だ。今後利用が促進しそうな位置情報活用などは、たしかにデータは莫大だし溜め込む前にリアルタイム処理することで、新たなイノベーションが生まれそうな分野ではある。
このストリーム・コンピューティングは、IBM InfoSphere Streamsというソフトウェアで実現できる。新たなアーキテクチャであり、データベースエンジニアにはちょっと敷居が高いと思われるかもしれないが、インストールも簡単で、開発などもほとんどがGUIによるドラッグ&ドロップの操作で行えるそうだ。90日間限定だが試用版も用意されているので、ストリームデータ処理に興味のあるエンジニアは、一度IBMのサイトからダウンロードして試してみてはいかがだろうか。