高まるデータの複雑性とより知的な分析の必要性
「ビッグデータ分析を早期に導入することで、企業は競争優位を手に入れられる」──セッション冒頭でこう切り出し、ジェイミー・ポプキン氏は「ビッグデータの全体像」について解説した。
近年、企業ではトランザクションデータに加え、非構造化データ、生産設備のデータ、さらにはTwitterやFacebookなどのソーシャルメディアのデータ、コンテキストデータなどの新しい形態の情報を活用し、ビジネス上の意思決定を支援するパターンを模索する企業が増えている。また、こうしたパターン・ベース・ストラテジ(PBS)を実現している先進的な企業においては、既存のビッグデータ活用よりさらに一歩進んだエクストリーム情報管理を考慮に入れている企業も登場しているとポプキン氏は語る。
ではなぜ、ビッグデータがそれほどまでに注目を集めるのか。まずは企業が扱うデータ量が「40%を超える成長率」(ポプキン氏)で増大していることだ。ダークデータ(コンプライアンスのために保存され使われなくなっているデータ)やセンサーによって取得されたデータ、非構造化コンテンツなどを収集し、分析に使うようになったからだ。
例えば小売業者ではWebサイトでのインタラクション、ポイントカード、POSなどのデータ、ヘルスケア業界では紙ベースからデジタル化への移行、科学分野では大陸規模でネットワークを構築し観測プロジェクトを実施したりしている。「量に注目が集まりがちだが、それはひとつの側面にすぎない」(ポプキン氏)。
ソーシャルメディアなどの非構造化データやクイックストリームを活用し、人間およびシステムのインタラクションデータを利用した「振舞分析」など、データおよびデータ分析の複雑性が増している。
「分析モデルも変化している。これまでの高度なアルゴリズムと少量のデータの組み合わせよりも、単純なアルゴリズムと大量のデータの組み合わせのほうが妥当性は高い。従来の分析ではなく、より知的な分析が求められている」(ポプキン氏)。
HadoopやRがビッグデータソリューションとして進化
またもうひとつ、ビッグデータに注目が集まる理由がある。それはオープンソース・ソフトウェアが企業に受け入れ始めており、HadoopやRをはじめとするオープンソース・プロジェクトがビッグデータのソリューションとして進化しているからだ。
「10年前はオープンソースというと、企業は信頼できないものとして導入を検討することもなかった。しかし今は違う。例えば米国のリサーチサービスプロバイダ、レクシスネクシスは従来のビッグデータ分析プラットフォームをオープンソース化。同社のように知的財産という大事なシステムにもオープンソースが採用され始めている。時代は変わった」(ポプキン氏)。
もちろんオープンソースは、まだまだ「採用するにはある程度の注意は必要」(ポプキン氏)だが、レッドハットやクラウデラという付加価値ベンダーの存在もあり、信頼度は向上し、「データ分析基盤の構築にオープンソース・プロジェクトは欠かせない」(ポプキン氏)。