IBMが掲げるビッグデータソリューションのビジョンとは
講演の冒頭、Facebookのユーザー数をプロットした世界地図を示した日本IBMの土屋敦氏。世界中で7億人、日本だけでも既に370万人にも達する状況を踏まえ、「ビッグデータがもはや概念上のものではなく、現実社会で既に起きている事象」と指摘する。
ここ1~2年でにわかに注目を集めるようになったビッグデータ。そうした状況を予想したIBMでは、早くから研究投資やM&Aなどに積極的に取り組んできた。具体的なソリューションや事例の紹介に入る前にまずはビッグデータの特徴についておさらいしておこう。
ビッグデータという言葉を耳にした時、多くの読者は文字通りの「大容量データ」を想像するだろう。その理解自体は間違っていないが、量以外の面に着目すると、ビッグデータの中にもいくつかの種類が存在していることがわかる。例えば、センサーなどから刻々と寄せられる「動的」データと、ファイルなどに格納された「静的」なデータ。あるいは、リレーショナルデータベースに格納された「構造化」データと、ソーシャルメディアに投稿された記事やログファイルなどの「非構造化」データという区分も考えられる。
今までと異なる特徴を持つ大量データを有効活用していくためには、新たなコンピューティング基盤や分析基盤が必要になる。例えば、動的なデータの価値を最大限に引き出すためには、システムに入ってくるタイミングでリアルタイムに処理・分析を行う必要がある。そのための技術として注目を浴びているのがストリーミングデータ処理技術だ。一連のプロセスをメモリ上で完結させるため、データを高速に処理することができる。一方、静的データの場合は、一度データをディスクに保存した後にバッチ処理を行うことになる。大量の静的なデータを処理するための基盤として注目されているのが、Hadoopをはじめとした並列分散処理技術である。
ビッグデータの中にもさまざまな区分が存在していることを踏まえた上で、IBMのビッグデータソリューションのプラットフォームは4つのレイヤー構成となっている。一番上に位置するのが、エンドユーザーにソリューションを提供するアプリケーション。IBMが提供するものもあれば、パートナーやユーザーが構築する場合もある。2層目は、開発環境や運用管理機能を提供する「ビッグデータユーザー環境」。さらに3層目には、ストリーミング処理と並列分散処理の機能を提供する「ビッグデータエンタープライズ・エンジン」がある。そして、最下層にはこれらのミドルウェア機能を下支えするHadoopやHive、Pigなどといったオープンソースの基盤技術が位置する。
ビッグデータプラットフォームを考える上でもう一つ重要なポイントとなるのが、外部とのインタフェースだ。強力なエンジンを使ってデータを処理したとしても、その結果を業務に反映できなければ意味がない。データ処理を考える上でのインタフェースは2つ。1つは、外部から処理対象データを取り込むためのもの。IBMのビッグデータプラットフォームでは数多くのデータ連携アダプターを用意することで対応している。もう一方が他のアプリケーションやミドルウェア、アプライアンス製品との連携インタフェースだ。
「IBMが提唱するビッグデータ関連のソリューションは、単に大量データを処理するだけではなく、処理結果をいかにうまく解析してビジネスアクションにつなげていくかという点を重視している。従って、DWHやデータ管理アプリケーション、マーケティングツールなど、さまざまなIBM製品との連携インタフェースを用意している。今後も、この部分のインタフェースを随時拡張していく予定だ」(土屋氏)
IBMの特設サイト「IODC Japan 2011動画ビデオとイベント・レポート公開」より、本講演のダイジェスト版ビデオがご覧いただけます。講演資料もダウンロードいただけますので、ぜひご利用ください。