IBMのビッグデータ領域の最後の1ピースBigInsightsとは?
―― 長らくInformation Managementブランドのイベントなどでビッグデータ関連製品の最後の1ピースとして紹介されてきたInfoSphere BigInsights(以下、BigInsights)がついに先日リリースされました。名前は聞いたことがあるが、詳細は知らないという方が多いと思います。まずは、その概要を教えてください。
BigInsightsは、大規模分散処理を可能にするオープンソース「Hadoop」を企業の情報システムを開発する際に使いやすい形でカスタマイズしたものです。もともと、IBMはビッグデータ時代が到来するという認識を持っています。大量の情報を短時間に分析することによって、従来は得られなかったような知見を引き出す。
―― 例えば、センサーやリアルタイムデータ処理技術を使って地球規模の問題を解決するSmarter Planetもそうですよね。
まさにそのとおりです。で、ビッグデータをもう少し詳しく見ていくと、その内訳に占める非構造化データの割合が非常に大きいことが分かるんですね。つまり、これまでのようにデータベースに正規化された形で納まるキレイなデータではなく、センサーから寄せられる波形データや、ソーシャルメディアに投稿された読者の日記、つぶやきのように構造化されていないデータが急速に増えています。
従来のRDBMSは、構造化された少量のデータを高速かつ正確に処理することを目的としてきたものです。例えば、金融系の決済システムでの利用に堪えうるような可用性、信頼性の実現を至上の命題としてきた。ただし、これらの仕組みはペタバイト級の大量データを処理することを基本的に想定していません。従来の仕組みでビッグデータを処理しようとすると、業務では使い物にならないくらいに時間が掛かってしまいます。
そこで、ビッグデータを処理するためにIBMは3つの技術を揃えました。従来のような構造化データについてはスケーラビリティを強化したDB2やNetezzaといったデータベース、DWH製品。こちらは「Infosphere Warehouse」というパッケージも提供しています。それから、リアルタイムで刻々と状態が変わる動的データについてはストリームデータ処理基盤「InfoSphere Streams」。さらに、今回、新たに加わったのが、大量の非構造化データを処理するための「InfoSphere BigInsights」です。