ビッグデータビジネス台頭の背景
鈴木 最近、ビッグデータビジネスが注目されています。ただ、データマイニング、BI、ユビキタス・ネットワーク、センサー・ネットワークなど、似たような概念は、以前からありました。いずれも言い換えればビッグデータになり得る話です。ところが、例えば2000年前半に様々な人が提唱し、行政も含めて推進機運が高かったユビキタスは、それほど伸びなかった。そういう例があるのにも関わらず、この段階でビッグデータを考えなければならないのか。その背景には、この10年で電子的に取得できるデータの量が、飛躍的に増大していることが挙げられます。
象徴的なものがビッグデータの一例とされている位置情報の取得手段で、2001年の段階ではGPSモジュール1個が10数万円していた。それが携帯電話への導入が進むなどの需要増大も影響し、現在ではその単価は数百円に下がっています。
もしも、2001年の段階でビッグデータ活用を行おうとすれば、全国民にGPSユニットや電子マネーを配布する必要がありました。しかし、そのコストは膨大なものとなり、一企業はもちろん、行政ですら不可能なほど費用を要するものでした。しかし、現在ではそのコストを消費者が自ら望んで負担しています。例えば、消費者が自ら一台数万円のスマートフォンを保有してくれているおかげで、事業者は極めて安価に販促用のアプリケーションを配布することができるようになったといえるでしょう。企業のシステム構築と運用を担ってきた日立製作所では、ビッグデータビジネスの状況をどのように見てこられたのでしょうか。
山口 環境面の整備によりデータが急増しているのと同時に、ビッグデータをビジネスに結びつけることが可能になった要因は、ハードウェア面と技術面の二つあると考えています。まず、ストレージの価格が下がり、以前はコスト面などからサマライズしていたデータを、生データのまま保持できるようになった。また、データを分析するサーバのパワーが上がり、ビッグデータの処理が求められる時間内に可能になりました。
一方、ビッグデータに対する処理技術面では、大量データをリアルタイム分析するストリームデータ処理や、分散処理する基盤、オープンソースであるHadoopのようなものが出てきています。そこで例えば今までは消費の8割を担っていた2割の人対象だったマーケティングが、残りの8割の人の消費行動の把握が可能になった。つまり、ロングテールの先の先が見えるようになり、より細かなレコメンドが出せるようになったと考えています。
ビッグデータの技術の本質
鈴木 ここでビッグデータの特質に注目してみたいと思います。処理する技術を含め、山口さんはどのようにお考えでしょうか。
山口 ビッグデータに限らず、データにはライフサイクルというものがあると考えています。それは(1)リアルタイム監視。(2)蓄積・検索。(3)集計・分析。(4)フィードバック。このサイクルを回して、リアルタイム監視の精度を上げていきます。
特に対象がビッグデータの場合、各フェーズを支えるには特別な技術が必要になります。例えばリアルタイム監視であれば、ストリームデータ処理。蓄積・検索については現行のRDBでは性能が追いつかなくなっているので、アプライアンスサーバや、新たなデータ保存・管理手法のKVS(Key-Value Store)の導入などが行われています。集計・分析では、並列分散処理ということで、先述のHadoopが出て来ています。
ストリームデータ処理とは、大量な実世界データを、データ発生と同時にインメモリで分析・処理するものです。その結果をモニタリングし、アラームや業務アクションなどに活用します。RDBが蓄積したデータを集計・分析してじっくり考える「大脳系処理」とすれば、ストリームデータ処理は熱いものに手が触れた瞬間に手を引っ込める「反射神経処理」だといえるでしょう。
KVSは、キー・バリュー型のAPIを持ち、データを永続化するデータ管理技術です。データアクセスの容易さ、安いIAサーバを横に並べることによるスケーラビリティの高さが特徴になります。
Hadoopなどの分散処理では、ビッグデータの全件アクセスが必要な処理が多いシステムに適しており、将来、データ量の増大が予想されるケースでも有効です。
鈴木 ビッグデータ処理ということでは、今年に入ってから「パッチ処理が間に合わなくて大変なことになった」事例をマスコミが報じています。基幹業務の処理が、既定時間内に終了しないとビジネスへの大きな影響が出てしまいますが、その面でもHadoopは有効だということでしょうか。
山口 確かにHadoopはパッチ処理が得意です。ただ、基幹業務では現行のCOBOLなどで作った夜間バッチが多数あります。これらをHadoopで書き換えるというのは負担と手間が大きいため、日立では、夜間バッチ処理をサーバ単位で分散、並列化することで高速化を図るグリッドバッチという製品を提供しています。