VerticaとAutonomyを中核にビッグデータ活用実現の理想型を提案
ビッグデータという言葉が使われるようになった背景には、すでに分析を行ってきた構造化データが大量になったこと。そして、たんに量が増えただけでなく、それを分析する目的、たとえば売り上げだけでなく物流の効率化など、多岐に亘るようになったことが挙げられる。さらに、これまではあまり分析の対象としてこなかった非構造化データ、たとえば各種SNSやブログなどから生み出される日々の噂話のようなものを分析し、ビジネスに活用したいと考えるようになったことも挙げられる。
これらの新たな要求に対し、HPでは買収した2つの製品、Vertica Analytics SystemとAutonomy IDOL Serverを軸としたトータルなソリューションを提供する、と言うのは日本ヒューレット・パッカード テクノロジーコンサルティング統括本部 テクノロジーソリューション本部 インフラストラクチャソリューション部担当部長でビッグデータ部長の吉岡 祐氏だ。従来のデータウェアハウスとBI/BAにあたる部分において大量なデータを効率的に分析する環境ではVerticaを活用し、新たな大量な非構造化データを分析するにはAutonomy IDOLを活用する。非構造化データだけをAutonomyで分析し活用することもできるし、AutonomyとVerticaを連携させ、構造化、非構造化データ両方を分析しビジネスに活用するという環境も構築可能だ。
VerticaとAutonomyは、1つのプラットフォームとして提供していくとのこと。その上で「将来的には、現状は分離しているデータマート部分も含め、1つのプラットフォームに統合していく」と吉岡氏。HPは、このVerticaとAutonomyを軸とした形を、ビッグデータを活用するための1つの理想として提案する。しかしながら、この理想型でなければビッグデータを活用できないというわけではない。Hadoopを使ったほうが効率的だと判断できればHadoop HBaseのソリューションも提供する。
Hadoopだけではビッグデータを活用できない
現状、企業のビッグエータへのアプローチは、大きく2つあると吉岡氏は説明する。
一方で、企業側のニーズとして、非構造化データをビジネスに活用したいというのは確実に増えているとのこと。「HPには、Autonomyを買収したこともあり、非構造化データを活用したいという問い合わせや、提案の機会は増えています」と吉岡氏。とはいえ、mixiやTwitterなどから実際に非構造化データを取り込んで、分析が行えている企業はまだまだ少ないのも現実。非構造化データを活用できない理由の1つが、実はHadoopにあると吉岡氏は指摘する。 「BIをすでに企業の中できちんと実施している場合は、ビッグデータの分析、活用をそのエキストラのソリューションとして提案します。そして、既存のOracleやSQL Serverなどのデータベースに格納しているデータやデータベースそのものが増えてしまい、遅くなってしまった処理を速くしたいという要望には、Hadoopなどのビッグデータ活用の技術で応えていくというものです。」(吉岡氏)
Hadoopは、分散したデータベースにアクセスするためのMap/ReduceとHadoop分散ファイルシステムのHDFSという構成であり、これらを利用することでビッグデータのアーカイブは効率的に行える。とはいえ、これは「ビッグデータを処理して保管するだけ」だと吉岡氏は言う。対してAutonomyは、「ビッグデータの収集、処理、分析、実行、保管という、企業活動においてビッグデータを活用するのに必要な5つの要素すべてを網羅しています。これはHadoopとは全く違うものです」とのこと。
Hadoopを導入してビッグデータに何らかの処理をしアーカイブできたとしても、そこから新たなビジネスのアクションに結び付けることはなかなか難しい。さらに、分析の前に、Hadoopに効率的にビッグデータを投入するといったことも実は苦労するポイントだったりもする。なので、Hadoopを導入しただけでは、ビッグデータ、とくにその中の非構造化データを活用するまでには、なかなかたどり着けないというのが現状なのだ。
Autonomyであれば、ビッグデータに対する収集、処理、分析、実行、保管という一連の対応が、1つの製品の中で完結できる。ここまでできるツールがあれば、どういったデータをどこから集め、それをどう分析してビジネスのアクションに結び付けるかという、ビッグデータ活用のための本質の議論がしやすくなる。逆にこれら5つの一部が欠けていると、技術的に欠けている要素をどうやって実現するかを先に考えなければならず、なかなかビッグデータを真に活用するに至れないこととなる。