"ビッグデータ"と従来のデータの違いとは
金井氏はまず、これまでの分析は「過去データの取り込み」、つまり出荷や販売、購買などの取引結果をDWHに取り込んで行う分析が主だったとする。だが経営のスピード化が進む現代においては、これらの過去データに頼った予測やアクションだけでは、インサイトを引き出し、新しい価値を顧客に提供していくことは難しいという。取引には記録されないデータ、たとえばWebログデータ、レシートデータ、トレーサビリティデータ、さらにはソーシャルデータ、モバイルデータ、センサーデータなど、これまで"未活用データ"としてDWHに取り込まれずにいた新しいタイプのデータを積極的に活用していくべきと金井氏は提案する。
こうした未活用データはいわゆる非構造化データが多く、ひと括りに"ビッグデータ"と呼ばれることも多いのだが、金井氏はビッグデータという言葉を以下のように定義している。
-------
許容可能な経過時間内で、通常利用しているツールを利用して、データの収集・管理・処理することのできる能力を越えるデータのこと。サイズは、常に変化しており、1つのデータセットで、10テラバイト程度から数10ペタバイトにまで及ぶ。
-------
つまりWebログやソーシャルデータ、センサーデータといった非構造化データはもちろん、「SQLで発行してRDBMSで管理するような構造化データもビッグデータに含まれる」と金井氏は言う。ビッグデータの定義はベンダや識者によって異なることが多いが、長年に渡って世界のトップ企業にDWHポートフォリオを届けてきたテラデータならではのビッグデータへの見解として参考になる。
ビッグデータ活用への市場の期待と取るべき戦略
IDCによれば、「2020年までには世界中のデジタル情報の量は44倍まで増加し、想像も及ばない35ゼタバイト近くにまで達する」という。まさしくビッグデータ時代の到来である。そして、現在、世界中のデジタルユーザがソーシャルネットワークを介して網の目のようにつながり、ソーシャルグラフを形成している。1人のユーザが発した情報はあっという間に伝播し、いまこの瞬間においても膨大な量の情報 - ビッグデータが世界中をかけめぐっているのである。
また、企業においても"データのビッグデータ化"は着実に始まっていると金井氏は言う。多くの業界で明細データの量が急増、数百テラバイトから、企業によっては数十ペタバイトにも上る。たとえばeコマースではクリックストリームやWebログが、製造業ではマシンデータやセンサーデータが急増している。これらのビッグデータから知見(インサイト)を導き出し、その知見を活用して収益につなげること、すなわちビッグデータに適切に対応するための新しい戦略がいま、企業には求められている。
ビッグデータに適切に対応するための戦略とは何を指すのか。金井氏は大きく以下の3つが重要だと説明する。
1. 新顧客戦略 … 最も重要なのはビッグデータでもソーシャルメディアでもなく顧客。データやSNSの向こうにいる顧客を正しく理解するため、複数の顧客識別子(既存チャネル、Webサイト、ソーシャルメディアなどで発生する購買顧客のID、メールアドレスなど)を統合する必要がある。データの統合なしで顧客の理解は無理
2. 新マーケティング戦略 … 従来までの"企業と人"の関係ではなく、これからは"人と人"の関係が重要になる。Webログやソーシャルメディアの分析から関係性の強弱を見据え、マスと個の両面からアクションを取る
3. 品質管理/顧客サービス … 生産ラインや製品使用中に発生するリアルタイムのセンサーデータと既存データベースを統合して、事故や故障の予測や品質改善、盗難防止サービス、料金の適正化などに活かす
構造化データも非構造化データも - ビッグデータを支えるテクノロジ
いずれの戦略においても、重要となるのはビッグデータを既存データと迅速に統合していくプロセスである。そのためにはやはり、ビッグデータの処理に適したテクノロジが求められる。それがMPP(Massively Parallel Processor)であり、MapReduceシステムであり、Hadoopフレームワークである。
テラデータは、世界最大級のビッグデータ活用企業とも言われるeBayのほか、数多くの先進的なデータ活用事例を成功させた企業を顧客にしている。たとえばHadoopおよびMapReduceとTeradata DWHを連携させることで、顧客にパーソナライズした新提案を行う証券会社や、不正使用を未然に防ぐクレジットカード会社、ソーシャルグラフマッピングで音楽好きなユーザどうしの結びつきを利用し、ミュージシャンの格付けやベンダ販売の楽曲を増加させたMySpace Music、交通量や天候情報、地理情報などさまざまな非リレーショナルデータを統合し、事故発生パターンを予測分析してドライバーの安全を確保するスペイン内務省交通局、など多くのビッグデータ事例がすでに公開されている。そしてこれらの企業に共通する特徴は、先に指摘したように既存データとビッグデータの連携を上手く図っているという点だ。
テラデータはもともとSQLによる大容量のデータ分析を非常に得意とするベンダである。だが、ビッグデータ時代の到来を感じていた同社は2011年4月、非構造化データの分析に強いアスター・データ・システムズ(Aster Data Systems)を買収し、同社のソリューションを取り込んでいる。アスターの強みは、特許を持つSQL-MapReduce技術で、その関数を使えばSQLで非構造化データも扱える点だ。テラデータはアスターを手にしたことで、数百テラバイトから数十ペタバイトのデータを管理するRDBMSであれば既存のDWHを、サイズにかかわらずリレーショナルではないデータや非構造化データであればアスター、またはApache Hadoopで対応することが可能になったことになる。加えて、ビッグデータ分析に適しているMPPアーキテクチャを採用しており、シェアードナッシング方式によるリニアなスケーラビリティを実現している点も強みだ。
金井氏は最後にまとめとして、「増え続けていくデータをビジネスに活用するには、どんなデータでも広範囲に扱えるITインフラが必要であり、あらゆるビッグデータ分析を提供できるのがテラデータ。そしてこれからの時代、もっとも重要なことは既存のデータとビッグデータの統合であり、両方を統合したエンタープライズ基盤をつくること」と総括した。既存のデータも新しいタイプの非構造化データも"統合"してこそ、ユーザが自由に使える環境となる。そしてそれが企業の知見を導き、新たな価値を創造する機会が増えれば、ビッグデータが本当に"活用"のフェーズに入ったと言えるときなのだろう。