ビッグデータはできるだけ発生源の近くで前処理を行うべし
今週もまた、ビッグデータの話題から。とはいえ、「ビッグデータ = Hadoop」のビッグデータを溜めてそれを高速に分散処理するところではなく、ビッグデータを効率的に収集しましょうというところ。この、溜める前の段階はあまりまだ話題に上ることは少ない。IBMがInfoSphere Streamsという製品で、リアルタイムに生み出される膨大なデータ・ストリームを取り込んでフィルタリングや分析を行うソリューションを展開しているくらいか。
そんななか富士通研究所が、ビッグデータから必要なデータをクラウドに効率的に収集するという分散処理技術の発表を行った。個人情報保護の課題もあるが、GPSが普及し人や自動車などの現在地情報はリアルタイムに取得できる。また、各種センサーからは稼働状況などがリアルタイムに大量に生み出されている。これらビッグデータを活用するには、自社にサーバーを抱えてデータを溜め込むという発想もあるかもしれないが、もっと手軽に低コストで活用したければいまならクラウドコンピューティングを活用すればいいだろう。
とはいえ、むやみやたらにデータを収集したら、クラウドを利用するコストも跳ね上がってしまう。そこで富士通ではクラウド上の処理の一部をゲートウェイに最適に分散配置するアルゴリズムを新たに開発、それによりゲートウェイ上であらかじめデータ処理を行い、ビッグデータから必要なデータだけを効率的にクラウドに収集する技術を開発した。これで、通信量は従来の1/100程度まで削減できるとか。
この集める部分で削減できるというのは、今後のビッグデータの活用でも重要となる気がする。ビッグデータの分析では、いかにして不要なデータを取り除くかが精度や分析速度を向上させることにつながるはず。とはいえ、もしかしたらそこになんらか重要な意味のある情報を不要と判断してしまっては宝物を見つけられないことに。
今回の、できるだけデータの発生源の近くでフィルタリングや統計処理などの前処理を行うというのは、なかなか興味深い取り組みだなぁと思うところ。ビッグデータの本格的な活用が始まる段階では、集めたビッグデータを効率的に分析処理する部分だけでなく、そもそもどうやってビッグデータを集めるかも重要なポイントとなることを、今一度認識を強くさせられた発表だ。ちなみに、今回の富士通研究所の新しい技術については、さらに情報ゲートウェイ技術の配備候補抽出アルゴリズムの高速化を進めて、2013年度中の実用化を目指すとのことだ。
DBプロ集団のインサイト・テクノロジーが元気だ
データベースエンジニアのプロフェッショナルが数多く集うインサイト・テクノロジー、同社がビッグデータではなく、ビッグログデータを効率的に処理する新製品の発表を行っている。データベースの監査ログを取得するツールであるPISOの新バージョン4.3の提供開始に合わせ、このPISOと連携し得られる大量なログデータの圧縮、アーカイブ、レポーティングを行う新製品であるLogMartを発表したのだ。当然だが、監査ログは一度取得したら数年間にわたり捨てることができない。どんどん増え続けるデータを効率的に管理できなければ、いざ監査という際に適切に必要な情報を取り出すことができないことに。そうなってしまうのなら、コストをかけて監査ログを収集している意味がない。
インサイト・テクノロジーでは、今月初めにはInsightQubeというオープンデータベース・アプライアンスの発表を行っている。これは、大手ベンダーの提供しているハイエンドなデータベースアプライアンスに性能的に匹敵、凌駕するものとのことで、さらにそれを「破格」な値段で提供するものだとのこと。高速なデータ転送速度を発揮しており、I/O性能ではハードディスクと比べると1/25の処理時間、これだといままで5時間かかっていたバッチ処理がわずか12分で完了させることも可能だとか。
規模は小さくても高い技術を持ちそれを武器に「とんがって」いるインサイト・テクノロジーのような企業が、こういうとんがった製品を発表し元気がいいというのは、日本のIT業界にとってもかなりの光明なんじゃないかなと思うところだ。
これから1ヶ月ほどはデータベースエンジニアは情報収集に忙しいかも
さて、先週の五味さんの週報でも報告されていたけれど、日本でも来週には、正式にMicrosoft SQL Server 2012の発表が行われるようだ。発表の内容は、詳しくDB Onlineでもレポートする。
さらに、もうエントリーした人も多いこととは思われるが、Oracle OpenWorld Tokyo 2012の開催も2週間後に迫っている。米国と同様JavaOne Tokyo 2012との併催なので、どのセッションに出たらいいのか迷うところかも。CEO ラリー・エリソン氏の口からいったい何が飛び出すのかは、いまからちょっと期待してしまうところ。個人的には 4月6日金曜日の朝9時30分からの基調講演のロバート・シンプ氏のセッションがかなり気になっている。
そして、4月の17日には、Information On Demand Conference Japan 2012という、IBMの各種データベースや分析ツール関連の情報満載のイベントも開催される。Information On Demand Conferenceの特別講演は東京大学の喜連川教授による「ビッグデータ時代(情報が爆発する時代から、情報を爆発させる時代)へ―情報爆発を活用して、新たな価値を生み出すー」という特別講演が。これは必聴かな。