もういまさらという話ではあるが、企業が利用する情報の量が爆発的に増えている。昨今では、この莫大なデータは”Big data”と呼ばれ、これに対応するためにハードウェア、ソフトウェアのベンダーがさまざまなソリューションを展開している。去る5月23日には、IBMがBig data戦略の1つとして「IBM Information Managementソフトウェア」の新製品に関する発表を行った。
情報の量だけでなく頻度と多様性にどう対処するか

「2009年に世界で約80万ペタバイトあったデータが2020年には35ゼタバイトになる」
―こう予測するのは、日本アイ・ビー・エム 理事 ソフトウェア事業 インフォメーション・マネージメント事業部長の俵 雄一氏。これは、「日本のデジタル放送の番組を10年間分蓄積するくらいの量に匹敵する」とのこと。ちなみにペタバイトの1000倍がエクサバイトで、そのさらに1000倍がゼタバイトという単位だ。
単純に量が増えるだけでなく、その中身も変わる。おもに増えるのは、非構造化データだ。
「Big dataの話題になると、大量データを処理できることに目が行きがちだが、量、頻度、多様性という3つをきちんとカバーできて初めてBig dataを処理できる」(俵氏)
ただ大量のデータを高速処理できるだけでなく、それが企業の業務に直結し、ビジネスを拡大するために活用できなければならない。
そのために今回IBMが提供するのが、Apache Hadoopの技術をエンタープライズ用途で利用できるようにした「InfoSphere BigInsight」と、データを溜めるのではなくストリーミング状態で活用する「InfoSphere Streams」という2つの製品の新バージョンだ。
前者はまさに大量データを効率的に扱うためのものであり、それを既存のビジネスデータと結びつけられるようDB2との双方向での連携や、管理コンソール、LDAP認証などのセキュリティ機能などをIBMが独自に追加している。
一方、大量データを集め、データベースに溜めてから分析するのがこれまでの考え方だが、溜めるのではなく発生したらそれをそのままストリームデータとして受け取って分析するのが「InfoSphere Streams」だ。

「この仕組みを使えば、1秒当たり1000万件のデータを処理できることがIBM内で検証済み」と日本アイ・ビー・エム ソフトウェア事業 インフォメーション・マネージメント事業部 マーケティング・マネージャーの中林紀彦氏は胸を張る。
さまざまなセンサーがさまざまな場所に配置され、そこからネットワークを通じ次々とデータがやってくる。そういった大量のストリーミングデータに対し、リアルタイムにマイニングを施す機能を提供している。
「Big dataに対し、Hadoopだけでは問題の解決はできない。従来の構造化されたデータは当然ビジネスにおいては中核にあり、それに加え他の機能を連携させ利用する必要がある」(中林氏)
この記事は参考になりましたか?
- この記事の著者
-
谷川 耕一(タニカワ コウイチ)
EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア