構造化データも非構造化データも - ビッグデータを支えるテクノロジ
いずれの戦略においても、重要となるのはビッグデータを既存データと迅速に統合していくプロセスである。そのためにはやはり、ビッグデータの処理に適したテクノロジが求められる。それがMPP(Massively Parallel Processor)であり、MapReduceシステムであり、Hadoopフレームワークである。
テラデータは、世界最大級のビッグデータ活用企業とも言われるeBayのほか、数多くの先進的なデータ活用事例を成功させた企業を顧客にしている。たとえばHadoopおよびMapReduceとTeradata DWHを連携させることで、顧客にパーソナライズした新提案を行う証券会社や、不正使用を未然に防ぐクレジットカード会社、ソーシャルグラフマッピングで音楽好きなユーザどうしの結びつきを利用し、ミュージシャンの格付けやベンダ販売の楽曲を増加させたMySpace Music、交通量や天候情報、地理情報などさまざまな非リレーショナルデータを統合し、事故発生パターンを予測分析してドライバーの安全を確保するスペイン内務省交通局、など多くのビッグデータ事例がすでに公開されている。そしてこれらの企業に共通する特徴は、先に指摘したように既存データとビッグデータの連携を上手く図っているという点だ。
テラデータはもともとSQLによる大容量のデータ分析を非常に得意とするベンダである。だが、ビッグデータ時代の到来を感じていた同社は2011年4月、非構造化データの分析に強いアスター・データ・システムズ(Aster Data Systems)を買収し、同社のソリューションを取り込んでいる。アスターの強みは、特許を持つSQL-MapReduce技術で、その関数を使えばSQLで非構造化データも扱える点だ。テラデータはアスターを手にしたことで、数百テラバイトから数十ペタバイトのデータを管理するRDBMSであれば既存のDWHを、サイズにかかわらずリレーショナルではないデータや非構造化データであればアスター、またはApache Hadoopで対応することが可能になったことになる。加えて、ビッグデータ分析に適しているMPPアーキテクチャを採用しており、シェアードナッシング方式によるリニアなスケーラビリティを実現している点も強みだ。
金井氏は最後にまとめとして、「増え続けていくデータをビジネスに活用するには、どんなデータでも広範囲に扱えるITインフラが必要であり、あらゆるビッグデータ分析を提供できるのがテラデータ。そしてこれからの時代、もっとも重要なことは既存のデータとビッグデータの統合であり、両方を統合したエンタープライズ基盤をつくること」と総括した。既存のデータも新しいタイプの非構造化データも"統合"してこそ、ユーザが自由に使える環境となる。そしてそれが企業の知見を導き、新たな価値を創造する機会が増えれば、ビッグデータが本当に"活用"のフェーズに入ったと言えるときなのだろう。