企業における現実の課題
米国では、Google、FacebookやAmazonといったWeb系先進企業がビッグデータを活用しはじめており、実際、Amazonは彼らのクラウド基盤上にある膨大なWebログを分析することで、例えば、ある商品を買った顧客に別の商品を薦めるようなリコメンデーションサービスを展開しています。
これは個人の履歴データだけではなく、今までのすべての顧客に関する膨大なデータを蓄積・分析し、その傾向を把握し、その人に適した情報を届ける仕組みを構築することにより実現されています。
このようなビッグデータ分析は、膨大なデータが結果的に集まる(集める)仕組みとも言えるクラウド化の流れの中で生まれた新しいマーケットなのです。
それでは企業が抱える情報量は今後どのくらいに増えるのでしょうか?
IDC Digital Universe Study(2011年)によると、企業の抱える情報は今後10年で50倍に増加し、全世界のデータ総量は35ゼッタバイト(1ZB = 1,000,000PB)以上に達すると言われています。読者の皆さまの直感でも、これまでの10年とこれからの10年を比較すれば、今後膨大なデータが発生するということには異論がないかと思います。
ところで、大掛かりなビッグデータ分析が必要となるような大規模データを抱えているのは、クラウド上でサービスを展開しているWeb系先進企業だけでしょうか。
企業内の情報の流れをよく見てみると、実は一般企業においても日々の業務の中で膨大なデータが生まれいっていることに気づきます。製造業であれば部品の設計情報や生産ラインのセンサーデータ、小売業であれば全国の店舗のPOS売上データやポイントカードに関連付けられた購買履歴、通信事業者であれば通話ログやサイト訪問履歴など、活用の可能性を持ったデータは多岐にわたります。
しかしながら、これらのデータの多くは発生と同時に捨てられているか、企業内のどこかに蓄積されてはいても活用されずに死蔵されているというケースがほとんどでした。これまではこのような大規模データを活用しようとしても、データの保存にかかる費用や汎用RDBMSの処理のスケールの限界から、現実的なソリューションは非常に限られていました。
そのため、企業がとった代替策は、業務の核となる部分のみを抽出したサマリデータに対して処理を行ったり、ある程度のデータが溜まるのを待って月に一回まとめてバッチで集計・分析を行ったりするというのが一般的でした。
ところがここ数年のストレージ装置の価格容量比の大幅な低減、汎用ハードウェアを活用したスケールアウト技術の進展、並列処理アーキテクチャの成熟により、今までは困難であった大規模データの活用に本格的に取り組める環境が整ってきました。Greenplum DBもそういった新しい世代の技術に基づいた製品の一つです。
今後はビッグデータ分析を行う仕組み、つまり、サマリデータではなく、膨大な生のデータを使って、高速に分析(計算)可能な次世代情報系インフラストラクチャがますます重要になってくるでしょう。より広範囲のデータを分析の対象とすることで深い分析が可能になり、これまで得られなかった知見の発見につながるチャンスを拡大し、高速処理により分析のサイクルを早めることで迅速な経営判断が可能になります。これらは企業に、自社の製品・サービスの差別化と付加価値をもたらすことになります。