SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

Data Tech 2022

2022年12月8日(木)10:00~15:50

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

DB Press

データサイエンティストはアーティストたれ! LinkedInディレクターに聞くデータサイエンティストの条件


10月21日 - 25日の5日間にわたり、米国ワシントンDCで開催中の「The 2012 Teradata PARTNERS User Group Conference & Expo」において、LinedInのビジネスアナリティクス部門のディレクターであるサイモン・チャン(Simon Zhang)氏にお話を伺う機会を得たので、本稿ではこれを紹介したい。

チャン氏

 --LinkedInには25名のデータサイエンティストが在籍しており、あなたは彼らを統括する立場にあると聞いています。LinkedInでは、データサイエンティストに必要な資質をどのように定義しているのでしょうか。

 チャン氏: まず、当社ではデータサイエンティストとビジネスアナリストを同義だと捉えています。そしてデータサイエンティスト、もしくはビジネスアナリスト足りうるには8つの条件があると考えています。

 1. プロダクトを熟知している
 2. トラッキングを実装できるスキルをもっている
 3. データウェアハウスやHadoopなどシステムを構成するコンポーネントを熟知している
 4. アドホックな分析を行える
 5. 有効で有益なレポートを作成することができる
 6. 高度なモデル化に長けており、予測モデルを作ることができる
 7. データの中からインサイト(知見)を探し出すことができる
 8. 探しだしたインサイトを価値に変えることができる

 この8つの能力を総合的にもっているのがデータサイエンティストだと我々は定義しています。

 --なかなかきびしい条件ですが、そうした高い能力を備えたデータサイエンティストたちは、日々どんなタイプのデータと向き合っているのでしょうか。

チャン氏: 我々はデータを4つのタイプに分けています。まずはERPデータ、これは量的にも少なく、メガバイト級です。2つめはCRMデータ、これはギガバイト級ですね。3つめがWebログやモバイルのデータ、これはテラバイト級です。そして最後がソーシャルデータ、これはペタバイト級で最も大きなデータであり、最も増え続けているデータであり、そして我々にとって最も重要なデータです。

 そしてソーシャルデータで最も重要なのは、一個人の属性(プロパティ)やその人の発言内容ではなく、個人と個人のつながりです。これこそが我々が顧客に提供する価値の根幹を支えています。

 --ソーシャルデーはサイズが大きいから重要というわけではないと。

 チャン氏: 我々にとってデータのサイズは2の次です。ビッグデータはそのままでは価値を生み出しません。ビッグなデータをスモールなインサイトに変えること、小さくても意味なる価値に変えることが重要なのです。

 --LinkedInの分析技術、中でもDataFu、Voldemort、Helixなどのすばらしいツールをオープンソースとして公開している姿勢は高く評価されています。こうしたすばらしい技術をクローズドにせずオープンソースとして公開している理由を教えてください。

 チャン氏: おっしゃるとおり、これらの技術は我々のビジネスにおけるユニークなニーズから生み出されたものです。ですが、このノウハウがほかの企業にも適用できるケースも多いはずです。こうしたツールを公開することで、データ分析の裾野が広がれば、そのベネフィットは再び我々のところにめぐってくるのは間違いありませんから。

 --LinkedInは日本ではほとんど事例のないAster Dataのユーザ企業です。今回、テラデータはAster Dataの新製品としてSQLインタフェースからHadoopの生データにアクセスできるアプライアンスを発表しました。MapReuceプログラミングの難しさから開発者を解放し、データサイエンティストへの敷居を下げる製品として期待されますが、Aster DataのユーザとしてこうしたHadoopの敷居の高さをどう捉えていらっしゃいますか。

 チャン氏: Astre Dataの立ち位置はテラデータのDWHとHadoopの間にあるギャップを埋めるものです。テラデータはリレーショナルに最適化された製品であり、SQLによる処理を得意とします。ところがHadoopは違う。RDBMS的な思考でHadoopに向かい合うとプログラマは必ず苦労します。

 たとえばライブのトランザクションフローという生データの塊をRDBMSで分析しようとすると10ページくらいは簡単にいってしまいます。でもSQLによる非構造化データへのアプローチを得意とするAster Dataであれば、非常に効率の良いクエリを投げることができます。

 おっしゃるとおり、Hadoopは習得に時間がかかるスキルです。すぐれたHadoop開発者はシリコンバレーに片寄って存在しており、彼らが世界の違う場所へと散っていくには、少なくともあと2年は必要でしょう。しかし、企業はそんなに待っていられません。Aster DataはこのHadoop技術者のスキルが向上するまでの期間を穴埋めできるソリューションだと思っています。Aster DataがあればHadoopに習熟しなくてよいというわけではありません。

 --Hadoopはデータサイエンティストに欠かせないスキルというのは理解できますが、Hadoopより重要な条件を挙げるとするなら、何がデータサイエンティストに求められるのでしょう。

 チャン氏: 私はデータサイエンティストはディシジョンサイエンティスト、データによる意思決定を司る能力を備えているべきだと思っています。つまり、データに対する強いオーナーシップをつねに意識していなくてはならない。

 さらに言えば、データサイエンティストにはアーティスト的な直感が必要です。科学者(サイエンティスト)としての好奇心と、データを知見に変えて提示するための表現力、それにはアーティストとしての素養をもっていなくてはなりません。複雑な方程式を書く力よりも、シンプルで理解しやすいメッセージに作り変える力です。先ほどもいいましたが、ビッグデータをスモールインサイトに変え、そしてそれを再び巨大な衝撃(huge impact)に変えるというサイクルをみずから作り出せるスキル、これがデータサイエンティストに最も求められる力です。

 --日本にはデータサイエンティストと呼べる人材が非常に少ないのですが、アドバイスがあればぜひ。

 チャン氏: マインドセットが変化しているという事実を受け入れてください。私は日本市場を非常に高く評価しています。プログラマの技術力も高く、すばらしいゲームもたくさん開発されてきました。プログラミングスキルも統計の知識もデータサイエンティストには重要です。日本のプログラマはその部分はすでに備えています。足りないとしたら分析というプロセスをビジュアル化して表現する力です。膨大なデータの海から、回答(answer)ではなく、問いかけ(question)をみずから探し出せる、それが単なるデータアナリストとデータサイエンティストの違いです。

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
DB Press連載記事一覧

もっと読む

この記事の著者

五味明子(ゴミ アキコ)

IT系出版社で編集者としてキャリアを積んだのち、2011年からフリーランスライターとして活動中。フィールドワークはオープンソース、クラウドコンピューティング、データアナリティクスなどエンタープライズITが中心で海外カンファレンスの取材が多い。
Twitter(@g3akk)や自身のブログでITニュース...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/4327 2012/10/26 17:33

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2022年12月8日(木)10:00~15:50

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング