ビッグデータは「手持ちのすべてのデータ++」と考えよ
「唾液を送付するとDNA解析を行ってくれる23andme.comというサイトがある。DNA解析はビッグデータ活用の1つだが、じつはここでは量は問題になっていない。データ量はわずか700MBしかない」
グアルティエリ氏は、4つのトレンドの1つである「ビッグデータ」について、そんな例を出しながら説明を始めた。ビッグデータの定義はしばしば、量、多様性、スピードという3つの要素を含むものと解説されるが、同氏は、その定義は企業とデータを考えた場合に適切ではないと主張する。
同氏の定義によると「ビッグデータは、企業の経営、意思決定、リスク軽減、顧客へのサービス提供のために必要なすべてのデータの保存、処理、アクセス能力の最たるもの」だ。
「一人ひとりのDNAデータを『保存』することは難しくない。一方、数十万人のDNAの何億通りもの塩基配列の組み合わせを『処理』しようとすると難しくなる。このようにビッグデータの量は相対的なものだ。企業のなかには『自分の組織にそんな大きなビッグデータはない』と考える人もいるが、心配は無用だ。手持ちのデータに何かを加えたもの、データ++だと考えればよい」(同氏)
そのうえで同氏は、企業がビッグデータを活用するうえでは、企業自身が持つデータ++について、すべて保存できるかどうか、クレンジングや解析処理のめたのツールを持っているか、検索・統合・可視化できるかという「保存」「処理(演算)」「アクセス」の機能をアーキテクチャとしてサポートすることが必要だと主張した。
もっとも、ビッグデータについては、誤解も多いという。その1つが「Hadoop=ビッグデータ」というものだ。しかし、ビッグデータは単一のツールや技術を指すものではない。「HadoopやNoSQLといった新しい技術だけではなく、従来のデータソースやソーシャルメディアなど、すべてのデータマネジメントの機能が大切だ」(同氏)
予測分析でディスカバリー能力を強化せよ
2つのディスカバリーは、目に見えない知識やモデルを発見できることを指す。そして、ディスカバリーは「予測分析」によって大幅に強化されるという。予測分析は「Predictive Analysis」「Prediction」などと呼ばれているもので、データの中から「予測モデル」を組み立てる分析のことだ。
予測分析は、従来のビジネスインテリジェンス(BI)とはアプローチが大きく異なる。たとえば、会員の解約を食い止めたいと思ったときにどうするか。BIでは、BIの専門家がデータを抽出し、レポートから判断する。一方、予測分析では、とりあえずデータをすべて集めて、そのデータに対してアルゴリズムを実行する。うまく機能すれば、どのデータが重要かが判断できる。
「BIは専門家が対処し、予測分析は数学や科学が対処するという違いがある。しかし、どちらが優れているかという問題ではなく、両方とも必要だ。予測分析だけでは対処できない。たとえば、地震がいつ起きるかを予測するモデルなどない。モデルには限界がある。だからこそ、先進的な企業は、BIと予測分析の両方のアプローチを使う」
予測分析において、アルゴリズムを提供し、予測モデルを特定するのはデータサイエンティストの仕事となる。これまでどのような予測分析が行われてきたについては、いくつかの事例として紹介した。具体的には、一人ひとりに最適なクーポンを発行する小売業(Target)、優秀な社員の離職を食い止めようとしたメーカー、病気を予防する分子を発見しようとする医療機関、ネット上でのパーソナライズ化したレコメンド(Netflix)、顧客が購入する商品を予測する小売業(TESCO)、不正な保証請求の検出、選挙活動における有権者への影響度調査などを紹介した。