--LinkedInには25名のデータサイエンティストが在籍しており、あなたは彼らを統括する立場にあると聞いています。LinkedInでは、データサイエンティストに必要な資質をどのように定義しているのでしょうか。
チャン氏: まず、当社ではデータサイエンティストとビジネスアナリストを同義だと捉えています。そしてデータサイエンティスト、もしくはビジネスアナリスト足りうるには8つの条件があると考えています。
1. プロダクトを熟知している
2. トラッキングを実装できるスキルをもっている
3. データウェアハウスやHadoopなどシステムを構成するコンポーネントを熟知している
4. アドホックな分析を行える
5. 有効で有益なレポートを作成することができる
6. 高度なモデル化に長けており、予測モデルを作ることができる
7. データの中からインサイト(知見)を探し出すことができる
8. 探しだしたインサイトを価値に変えることができる
この8つの能力を総合的にもっているのがデータサイエンティストだと我々は定義しています。
--なかなかきびしい条件ですが、そうした高い能力を備えたデータサイエンティストたちは、日々どんなタイプのデータと向き合っているのでしょうか。
チャン氏: 我々はデータを4つのタイプに分けています。まずはERPデータ、これは量的にも少なく、メガバイト級です。2つめはCRMデータ、これはギガバイト級ですね。3つめがWebログやモバイルのデータ、これはテラバイト級です。そして最後がソーシャルデータ、これはペタバイト級で最も大きなデータであり、最も増え続けているデータであり、そして我々にとって最も重要なデータです。
そしてソーシャルデータで最も重要なのは、一個人の属性(プロパティ)やその人の発言内容ではなく、個人と個人のつながりです。これこそが我々が顧客に提供する価値の根幹を支えています。
--ソーシャルデーはサイズが大きいから重要というわけではないと。
チャン氏: 我々にとってデータのサイズは2の次です。ビッグデータはそのままでは価値を生み出しません。ビッグなデータをスモールなインサイトに変えること、小さくても意味なる価値に変えることが重要なのです。
--LinkedInの分析技術、中でもDataFu、Voldemort、Helixなどのすばらしいツールをオープンソースとして公開している姿勢は高く評価されています。こうしたすばらしい技術をクローズドにせずオープンソースとして公開している理由を教えてください。
チャン氏: おっしゃるとおり、これらの技術は我々のビジネスにおけるユニークなニーズから生み出されたものです。ですが、このノウハウがほかの企業にも適用できるケースも多いはずです。こうしたツールを公開することで、データ分析の裾野が広がれば、そのベネフィットは再び我々のところにめぐってくるのは間違いありませんから。
--LinkedInは日本ではほとんど事例のないAster Dataのユーザ企業です。今回、テラデータはAster Dataの新製品としてSQLインタフェースからHadoopの生データにアクセスできるアプライアンスを発表しました。MapReuceプログラミングの難しさから開発者を解放し、データサイエンティストへの敷居を下げる製品として期待されますが、Aster DataのユーザとしてこうしたHadoopの敷居の高さをどう捉えていらっしゃいますか。
チャン氏: Astre Dataの立ち位置はテラデータのDWHとHadoopの間にあるギャップを埋めるものです。テラデータはリレーショナルに最適化された製品であり、SQLによる処理を得意とします。ところがHadoopは違う。RDBMS的な思考でHadoopに向かい合うとプログラマは必ず苦労します。
たとえばライブのトランザクションフローという生データの塊をRDBMSで分析しようとすると10ページくらいは簡単にいってしまいます。でもSQLによる非構造化データへのアプローチを得意とするAster Dataであれば、非常に効率の良いクエリを投げることができます。
おっしゃるとおり、Hadoopは習得に時間がかかるスキルです。すぐれたHadoop開発者はシリコンバレーに片寄って存在しており、彼らが世界の違う場所へと散っていくには、少なくともあと2年は必要でしょう。しかし、企業はそんなに待っていられません。Aster DataはこのHadoop技術者のスキルが向上するまでの期間を穴埋めできるソリューションだと思っています。Aster DataがあればHadoopに習熟しなくてよいというわけではありません。
--Hadoopはデータサイエンティストに欠かせないスキルというのは理解できますが、Hadoopより重要な条件を挙げるとするなら、何がデータサイエンティストに求められるのでしょう。
チャン氏: 私はデータサイエンティストはディシジョンサイエンティスト、データによる意思決定を司る能力を備えているべきだと思っています。つまり、データに対する強いオーナーシップをつねに意識していなくてはならない。
さらに言えば、データサイエンティストにはアーティスト的な直感が必要です。科学者(サイエンティスト)としての好奇心と、データを知見に変えて提示するための表現力、それにはアーティストとしての素養をもっていなくてはなりません。複雑な方程式を書く力よりも、シンプルで理解しやすいメッセージに作り変える力です。先ほどもいいましたが、ビッグデータをスモールインサイトに変え、そしてそれを再び巨大な衝撃(huge impact)に変えるというサイクルをみずから作り出せるスキル、これがデータサイエンティストに最も求められる力です。
--日本にはデータサイエンティストと呼べる人材が非常に少ないのですが、アドバイスがあればぜひ。
チャン氏: マインドセットが変化しているという事実を受け入れてください。私は日本市場を非常に高く評価しています。プログラマの技術力も高く、すばらしいゲームもたくさん開発されてきました。プログラミングスキルも統計の知識もデータサイエンティストには重要です。日本のプログラマはその部分はすでに備えています。足りないとしたら分析というプロセスをビジュアル化して表現する力です。膨大なデータの海から、回答(answer)ではなく、問いかけ(question)をみずから探し出せる、それが単なるデータアナリストとデータサイエンティストの違いです。