ビッグデータ活用の現状
「ビッグデータとは何なのか?」その定義次第でビッグデータ活用の現状の見え方は大きく変わってくる。例えば、クラウドなどの用語と比較しても直感的に活用例をイメージする事は困難である。筆者は、1年近くビッグデータ担当として仕事をしているが、ビッグデータの捉え方は各自それぞれ異なっている。例えば、人によっては大量のデータを保存するストレージであったり、ビジネスインテリジェンス(BI)の事であったり、データウェアハウス(DWH)の事であったり、Hadoopの事だと考えていたりと様々だ。
業界的にも例えば100TB以上のデータならビッグデータというような単純な定義があるともっと仕事をし易いのだがそれは叶わぬ事だろう。ここでは、HPとしての定義「大量の構造化、非構造化データを分析し未来を創造する」を前提に、筆者の関わる案件を元にビッグデータの活用の現状を紹介する。
ビッグデータに関する顧客のニーズや現状として、大きく3つのパターンに分けられる。1つ目は、ビッグデータだとは認識していない顧客が多いことだ。我々ベンダーからの視点からは文字通りビッグデータの案件なのだが、顧客からすればそれがビッグデータなのか異なるのかは関係のない話であり、ビジネス上の課題を解決する事が目的であるので、その解決手段が非構造化の大量なデータを分析しているとしても、顧客にとって大きな意味をなさない。したがって、筆者自身もあえて「ビッグデータ案件ですね」とは顧客に話をするわけではない。中でも特に顧客からの相談が多いのはリレーショナルデータベースシステムのデータをDWHに移し、分析するシステムのパフォーマンス改善であったり、Hadoopによる業務システムのバッチ処理高速化などである。
2つ目に、よく顧客から相談を受けるのが、「ビッグデータとは何か?」というようないわゆるワークショップなどからはじまる事案だ。その中でビッグデータの世界でできる事、技術、製品などを紹介しながら進めて行くので、顧客自身もビッグデータによるITの改善だと認識する事になる。ここではWeb 上のデータを解析するECシステムや、音波を使ったパターンマッチングなどの実験段階というフェーズが多い。つまり、テクノロジーによるイノベーションの実現である。ここでは構造化、非構造化データをすべて取り込んだデータベースで一括管理し、顧客の状況を把握するようなシステムを構築したりする。
3つ目は、顧客自身によるビッグデータの取り組みを汗馬之労で行っている場合である。これはHadoopを意味している事が多い。ただHadoopを導入したが、これで何ができるのかを模索している顧客が多いように見受けられる。実際Linuxを用意して、Javaとシェルをインストールした上でHadoopをダウンロードしてインストールし、スタンドアロンであれば簡単に設定も終わってしまう。
結果として現状、以下の3つのパターンがあるに筆者は感じている。
- 既存RDBMSシステム改善実現の手段としてのビッグデータ活用
- コンサルタント協力等によるビッグデータによる新しいビジネス模索の実験段階
- Hadoopに対する技術者の好奇心