データサイエンス=データからナレッジを引き出す専門領域
カート氏は、ガートナー入社以前にアナリティクス製品ベンダーや米国立研究所でリスク分析や金融サービス担当アナリティクスコンサルタントなどを務めるなど、20年以上アドバンスドアナリティクスに関わってきた。講演では、そうしたキャリアのなかで携わった事例などを交えながら、データサイエンス手法は何か、どのようなタイミングで適用すべきか、何が盲点になるか、データサイエンスチームの編成はどのように行うべきかを解説した。
「データサイエンスとは、データからナレッジを引き出す専門領域であり、異種、複雑、大量、高速な情報に関するデータを扱う。アプローチとしては、予測的(Predictive)アナリティクス、処方的(Prescriptive)アナリティクスを使用する。目的は、意思決定、運営上のパフォーマンス、ビジネスイノベーション、市場から得られるインサイトの向上などだ」(カート氏)
ガートナーの分類では、予測的アナリティクスというのは、これから何が起きるのかを予測するもので、処方的アナリティクスというのは、起きることに対して何をすべきかを知るものとなる。ガートナーでは、このほか、何が起きたのかを知る記述的(Descriptive)アナリティクス、なぜ起こったかを知る診断的(Diagnostic)アナリティクスを提案している。いずれにしても、意思決定や次の行動につなげられるようにすることがポイントとなる。
具体的な分析手法として現場で最も広く使用されているのは回帰分析だという。線形回帰とロジスティック回帰の2つがあり、目的別に使い分けるのが普通だ。線形回帰は、売上予測や見積もり、期待値の予測で使用し、ロジスティクス回帰は、信用リスクやマーケティングへの反応、解約率の予測などに使用する。
また、ディシジョンツリー(決定木)もよく使われる手法だ。マーケティングではしばしば、顧客の集合を異なる大きく2つのグループに分け、ターゲットを絞っていくのに利用される。たとえば、宅配サービスをマーケティングする際に、買い物の頻度が一定数以下で、平均購入額が一定数以上で、性別が男性の場合であればどうなるか、などを探っていく。ディシジョンツリーのポイントは、ツリーを分岐条件としてルールに変換できることだという。
このほかにも、ECサイトのレコメンドに利用されている親和性分析(リンク分析、バスケット分析、アソシエーションルールなどとも呼ばれる)や、ビッグデータを使った機械学習でニューラルネットワークを用いることのメリットなどを紹介した。