情報の量だけでなく頻度と多様性にどう対処するか
「2009年に世界で約80万ペタバイトあったデータが2020年には35ゼタバイトになる」
―こう予測するのは、日本アイ・ビー・エム 理事 ソフトウェア事業 インフォメーション・マネージメント事業部長の俵 雄一氏。これは、「日本のデジタル放送の番組を10年間分蓄積するくらいの量に匹敵する」とのこと。ちなみにペタバイトの1000倍がエクサバイトで、そのさらに1000倍がゼタバイトという単位だ。
単純に量が増えるだけでなく、その中身も変わる。おもに増えるのは、非構造化データだ。
「Big dataの話題になると、大量データを処理できることに目が行きがちだが、量、頻度、多様性という3つをきちんとカバーできて初めてBig dataを処理できる」(俵氏)
ただ大量のデータを高速処理できるだけでなく、それが企業の業務に直結し、ビジネスを拡大するために活用できなければならない。
そのために今回IBMが提供するのが、Apache Hadoopの技術をエンタープライズ用途で利用できるようにした「InfoSphere BigInsight」と、データを溜めるのではなくストリーミング状態で活用する「InfoSphere Streams」という2つの製品の新バージョンだ。
前者はまさに大量データを効率的に扱うためのものであり、それを既存のビジネスデータと結びつけられるようDB2との双方向での連携や、管理コンソール、LDAP認証などのセキュリティ機能などをIBMが独自に追加している。
一方、大量データを集め、データベースに溜めてから分析するのがこれまでの考え方だが、溜めるのではなく発生したらそれをそのままストリームデータとして受け取って分析するのが「InfoSphere Streams」だ。
「この仕組みを使えば、1秒当たり1000万件のデータを処理できることがIBM内で検証済み」と日本アイ・ビー・エム ソフトウェア事業 インフォメーション・マネージメント事業部 マーケティング・マネージャーの中林紀彦氏は胸を張る。
さまざまなセンサーがさまざまな場所に配置され、そこからネットワークを通じ次々とデータがやってくる。そういった大量のストリーミングデータに対し、リアルタイムにマイニングを施す機能を提供している。
「Big dataに対し、Hadoopだけでは問題の解決はできない。従来の構造化されたデータは当然ビジネスにおいては中核にあり、それに加え他の機能を連携させ利用する必要がある」(中林氏)