Smarter Planet時代にはビッグデータの活用が必須になる
ここ最近、IT専門のメディアだけでなくテレビや新聞など一般メディアでも「ビッグデータ」に関する話題が取り上げられている。先日(2012年5月28日)、NHKテレビのクローズアップ現代でも「ビッグデータ」が特集され、米国での医療現場や都市交通の例が紹介されていた。番組に登場した画面やマシンにIBMのWATSONのロゴが入っていたことに、気づかれた方も多いだろう。年初はバズワードだったビッグデータも、名実ともに現代社会のトレンドの1つとして、しっかりと認知されたことになるのだろう。
当初、ビッグデータというと、どちらかと言えば大量データを扱うためのテクノロジーの話題が多く、すぐにHadoopといった新しい技術や製品に関するものが多かった。ここ最近は、ビッグデータを活用すると何が変わり、どんなことが実現できるのか、そのためにはどのような技術、とくにビッグデータのデータ分析手法が必要になるのかとうように変化してきている。
「IBMでは以前よりSmarter Planetという地球をより賢く、よりスマートにしていくというコーポレートビジョンを提唱しています。その中で情報の管理、統合・変換、統制、分析が必要になると説明しており、まさにこのSmarter Planetを実現するためのミドルウェアのところにビッグデータがあると考えています」と説明するのは、日本アイ・ビー・エム ソフトウェア事業 インフォメーション・マネージメント事業部 ワールドワイド ビッグデータ タイガーのテクニカル・リードである土屋 敦氏だ。
Smarter Planetを実現するには、大量データの処理が可能な基盤、クラウドコンピューティング環境、およびさまざまな標準化が必要になり、IBMはそのための基盤と構築サービスを提供するとのこと。これはたとえば、スマートデバイスを持って行動をする人、あるいはさまざまなセンサーなどから、大量のデータが発生する時代がSmarter Planet時代であり、その大量に発生したデータを蓄積し、収集、選別して分析を行えるようにする。これが、ビッグデータの分析であり、そこから新たな洞察を得て、その洞察を業務に活用することで賢い地球を実現していくということだ。これを実現するための技術基盤とサービスを提供するのが、IBMのビッグデータの活用ソリューションとなる。
Hadoopだけではビッグデータを活用するのは難しい
現在、多くのベンダーがビッグデータに関するサービス、製品を提供している。Hadoopに関連する製品、または蓄積されたビッグデータを高度に分析するためのツールなどがその主なものだろう。そういった状況の中、IBMの特長は、基盤となるハードウェア・プラットフォームの部分から、Hadoopはもちろん、ストリーム・コンピューティング、データウェアハウス・アプライアンス、さらにはテキストマイニングのICA(IBM Content Analytics)や顧客や市場の分析、予測、マーケティング施策の実行を支援するためのUnicaといったアプリケーションに至る、「ビッグデータ活用に必要なすべての要素を包括的に提供できるところです」と土屋氏。
Hadoop関連のソリューションを提供するところは、現在は数多ある。とはいえ、Hadoopだけあってもなかなかビッグデータを分析し、活用するまでには至らない。IBMならば、ICAをHadoopに組み合わせることで容易にビッグデータに対しテキスト分析が行えるようになるとのこと。
カブドットコム証券の事例では、HadoopソリューションのInfoSphere BigInsightsを用い、ソーシャルネットワークから銘柄に関連性の高い言葉の抽出を行い、それを検証し株売買の参考となる情報に加工して顧客サービスに活用している。分析の対象は46銘柄、1日あたり約900万行もあり、それを約43,000のキーワードで絞り込みを行い、相関分析を行っている。この分析は、旧来の技術基盤だけでは時間がかかりすぎて難しいものだった。それがHadoopの技術を利用し、ICAと組み合わせテキスト分析を行うことで高速に処理できるようになったのだ。
「HadoopとICAがなければ、1処理で1年くらいかかる897兆回の計算をカブドットコムでは行いました」と土屋氏。この他にも画像データを分析するものなどもIBMにはあり、Hadoop用に複雑な分析用のプログラムを自ら構築することなく、すぐにさまざまなビッグデータ分析が可能になるとのことだ。
さらに、「Hadoopでビッグデータを扱う際には、今後はガバナンスが重要になります」と土屋氏は指摘する。ビッグデータをたとえば銀行などの金融機関で利用したければ、当然ながら他のシステムと同様、ビッグデータのシステムも監査に対応できるものでなければならないはず。そうであるのに、「現状ではビッグデータのシステムに関して、ガバナンスの必要性を指摘している例はほとんどありません」と土屋氏。このビッグデータのシステムの監査についても、IBMはGuardiumという製品を持っておりこれを活用することで対応できるようになるとのことだ。
ストリーム・コンピューティングでビッグデータにリアルタイム性を
過去のデータを分析するのであれば、集約したサマリーデータでも傾向を分析することはできる。そういった用途であれば、既存の大規模データウェアハウスの技術でもビッグデータの分析はある程度可能だろう。実際、多くのビッグデータのソリューションは、ビッグデータをいったんどこかに溜めたあとの話がほとんど。つまりは、大量データの中から効率的に必要なデータを抽出してくるというものなのだ。「ビッグデータから、今を知りたい。そしてすぐにアクションを起こしたいといった場合には、これでは十分ではありません」と土屋氏。そのためIBMではVelocity、つまり速さ、リアルタイム性もビッグデータでは重要だと主張している。
これを実現する技術基盤が、ストリーム・コンピューティングだ。Hadoopや大規模データベースはバッチでのローディング処理などでいったんビッグデータをデータベースに溜める。「バッチは、バケツに水をいったん入れてから処理します。これに対してストリームは、水を注ぎ口から注ぎながら処理するというものです」と土屋氏は説明する。この方法ならば、一度に処理するデータ量はそれほど大きくならず、強大なCPUリソースも必要ない。
ストリームデータの処理をするところにロジックを持たせ、「今」の分析結果からすぐに自動でアクションを起こすことも可能だ。「ビッグデータはデータの絶対量ではありません。構造化データであっても、非構造化データであっても、それを処理して分析しアクションに結び付ける速さが重要です」と土屋氏。分析からアクションまでの時間をいかに短くできるかは、ビッグデータから洞察を得てそれを使ったSmarter Planetを実現する際には大きなインパクトを持つことになる。このストリーム・コンピューティング技術を持っていることも、IBMのビッグデータソリューションの大きなアドバンテージだと言えるだろう。
IBMのビッグデータソリューションに包括されている各種技術要素は、昨今のビッグデータブームに合わせて登場したものではない。2008年から同社が全社レベルで取り組んできたSmarter Planetという活動の中で培われた技術群であり、むしろそれが今になってビッグデータというカテゴリーに当てはめられることになったと捉えることができる。なので、同社のビッグデータソリューションの多くは、すでに実績のあるものが多い。各国で地球をSmartにするために活用されている事例が数多くあるのだ。ビッグデータをどうしようかというアプローチではなく、Smarter Planetのためのテクノロジーであるというところにも、IBMには優位性がありそうだ。