10年前のユビキタスと何がちがうのか
鈴木: ビッグデータという言葉は現在のところ、はっきりとした定義は固まっていません。ですが私個人の意見としては、
・高解像度
・高頻度生成(リアルタイム)
・多様(非構造を含む)
であるデータを"ビッグデータ"と呼んでよいのでは、と思っています。データが高解像度化するということは、同じ現象をより細かく表現できるということですから、当然、データ量が増えます。そういったデータは種類も多様で、また頻繁に生成されれば、結果としてデータはビッグになる - これがビッグデータの現状ではないでしょうか。
10年前、ユビキタスという考え方に注目が集まりました。考え方としては正しかったと思いますが、そのコンセプトを実現するほどには情報通信技術の活用が成熟していなかったのではないでしょうか?その理由はなぜか。10年前の段階ではまだデータ量も十分でなければ、データを分析し活用するという社会基盤もありませんでした。しかし一方で、10年前の2001年という年はデータをめぐる非常にシンボリックな動きが数多く見られました。JRからSuicaが登場し、FOMAサービスが開始したのも2001年です。その後、ネットワークは帯域がどんどん太くなり、さらにGPSが携帯電話に標準搭載されるようになり、データを取り巻く環境は10年で様変わりしたといえます。現在は、地道ながらも自ずとデータが蓄積される基盤が出来上がりつつあると感じます。
現在はこの溜まってきたビッグデータを活用する段階に入ってきているのではないでしょうか。事業所内に溜まっている、ストレージのお荷物と呼ばれがちな"死蔵データ"をすこしずつ紐解いてみることで、だんだんと分析が進んでいくのでは…と期待しています。日立ではビッグデータの全体像をどのように捉え、データ分析から知見を得るにはどのような方法が有効だと定義しているのでしょうか。
人とモノが発信する社会にはデータのライフサイクルが必要
山口: 人が発信する情報に加えて、モノが発信する情報が社会にあふれるようになったということが、現在のビッグデータブームを語る上で非常に重要なキーとなります。先ほど言われたようなICカードやGPSのほか、物流システムや電力メーターで使われているセンサーが、どんどんしゃべりだす時代になったのです。人が発信する情報とモノが発信する情報がこのまま増え続ければ、2015年には法人向け国内ディスクストレージシステムの容量は5,000ペタバイトに跳ね上がると予想されています。これは2011年の5倍に相当する数字です。
このように、これまで誰も経験したことがない爆発的な量の"ビッグデータ"を活用するには、データのライフサイクルに応じた処理が必要だと日立は考えています。
データのライフサイクルのフェーズは
・リアルタイム監視
・蓄積/検索
・集計/分析
の3つに大きく分けられます。
大量のデータを瞬時に分析するリアルタイム監視はストリームデータ処理やインメモリによるデータ処理などで実現できますが、日立はこの分野のミドルウェア製品として「uCosminexus Stream Data Platform」を提供しています。
ビッグデータの高速処理技術
山口: データの高速検索や効率的な補完を可能にする蓄積/検索の技術としては、東京大学と共同で 超高速データベースエンジンの研究開発を行っており、従来型のデータベースエンジン比で約800倍の処理性能をめざすニュースリリースを2011年の6月に配信しました。今後、実証実験を経て、研究開発成果を反映した新しいデータベースソフトウェアの開発をすすめ、2012年度には事業化することを目指しています。
そして大量の情報を対象とした集計/分析では、バッチ処理を複数サーバで分散実行する処理基盤、さらには既存のCOBOLのバッチでも活用できるようなミッションクリティカルな基盤が求められます。リアルタイム監視と同様に、日立はここでもミドルウェア製品「uCosminexus Grid Processing Server」を提供しています。
鈴木: そうしたソリューションの活用も含め、日立が展開してきたビッグデータビジネスの具体的な事例にはどんなものがあるでしょうか。
ガスタービン保全、交通状況モニタリングなどのリアルタイム処理技術
山口: 2つほどご紹介しましょう。
ひとつは「ガスタービン保全システム」です。日立は世界中にガスタービンを納入していますが、これらのタービンが発信する情報を衛星通信を使って毎日収集しており、その量は1日あたり20GBになります。取得するデータの種類は圧力、回転数、温度などさまざまですが、これをインメモリでストリーム処理しています。もし異常な挙動を検出した場合は、直近データの変動パターンと比較し、「まだ大丈夫」「そろそろ部品を交換したほうがいい」などの分析をリアルタイムで行っています。世界中のガスタービンの保守をこのようにデータ分析しながら行っているわけです。
もうひとつは「交通状況モニタリング」です。これは自動車の車両位置情報を分析して速度や走行方向を算出し、これらのデータをストリーム処理(約2,000件/秒)して渋滞を検出します。GPSデータと連携することで、リアルタイムで渋滞や事故などの状況を可視化して把握することが可能になります。
鈴木: そういった事例で培ってきたデータ活用技術を一般企業に適用するとしたら、どんな例が考えられるでしょうか。
山口: 日立のリアルタイム処理技術は、証券アルゴリズム取引に向けた技術として進展してきたので、監視系業務などには広く応用できると思います。たとえばITシステムの運用監視などに向いているのではないでしょうか。マシンルームの温度や稼働状況をリアルタイムに可視化するなどに力を発揮できます。そのほか、小売業などではPOSデータを売上の集計に使っているところは多いですが、これを在庫管理システムにも応用するなど、さまざまな使い方が考えられます。
経営層がビッグデータに関心を持てば情シスのチャンス
鈴木: ビッグデータ活用においては、集積したデータから知見を得る、ということが非常に重要なポイントになります。しかし一方で、いくらデータを集めても「ゴミデータはしょせんゴミでしかない」という意見もあります。一般企業がデータ活用に踏み出そうとしたとき、まずはどのあたりから手をつければよいのでしょうか。
山口: ビッグデータは何が重要なのか、それはいかに分析するかよりも、おっしゃるように集積したデータからいかに知見を導き出すか、です。そのためには大量のゴミの山から宝を見つけ出すような作業を要します。冒頭でも申し上げましたが、ビッグデータはこれまでのITの常識では通用しないことが多く、お客様だけでなく我々ベンダにとっても未知数の分野です。ビッグデータをどう活用していくのか、我々もお客様とともに考えていかなくてはならない。そのための足がかりとして、データを捨てずにまずは溜めておくことから始めていただければと思います。
鈴木: では、ビッグデータ活用における最大の障壁としてはどういった課題が挙げられるでしょうか。
山口: ビッグデータを活用してやりたいことは漠然としていても、それを数学的分析の理論に当てはめるのが非常に難しいことですね。どんなアルゴリズムを使えば効率的に分析できるのか、そういったモデルの確立が厄介なことが最大のネックです。いまなら数理統計学とプログラミングができる技術者なら、高待遇で迎えられるのではないでしょうか。
もうひとつ、今後も課題として残るのがプライバシーの問題です。ビッグデータ分析はともすると消費者をより深く知る行為と直結します。個人情報の特定が可能なほどに消費者の顔が見える化されるわけです。これは一歩間違えると重大なプライバシー違反につながりかねません。こういった問題を避けるため、情報提供側は消費者から気持ち悪がられないようにデータを取得することを意識する必要があります。たとえば、加工する前にデータをマスキングして必要以上の個人情報を取れないようにする、個人情報そのものを暗号化する、などの方策が考えられるでしょう。
鈴木: お話を伺っていて、確実にビッグデータは活用の時代に入ったと実感します。だからこそ、個人的にはこのままビッグデータがバズワードとして扱われるのは不本意に感じる部分もあります。しかしこのブームが続けば、逆に経営層がビッグデータに興味を示す可能性も高くなるような気もします。もしそうなったとき、情シス部門でも業務部門でも、以前からやりたいと思っていたデータ活用ビジネスがあれば、その機会に話を持ち出すチャンスかもしれません。
山口: 国内企業でもCIOレベルであれば、ビッグデータというトレンドはかなり浸透してきたと思います。繰り返しになりますが、まずは、いままでは捨てていたようなデータや、TwitterやFacebookなど外に落ちているデータを拾うことから始めてほしいですね。このデータを蓄積するというところですでに挫折している例が多いようなので、残念に思います。日立だけでなく、ベンダはビッグデータビジネスに関するさまざまな知見をもっているので、ぜひとも気軽に相談してください。