Shoeisha Technology Media

EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

【第三回】決定木分析:要因を分析し、将来を予測する

2014/11/25 00:00

 決定木分析は、樹木状のモデルを使って要因を分析し、その分析結果から予測をおこなうというもの。さまざまなビジネスシーンで活用される代表的なデータマイニング手法のひとつです。

1.多くのビジネスシーンで利用される決定木分析

 前回紹介したAprioriアルゴリズムは、教師なしパターン認識の学習方式の一つで、基本技術を頻出項目の抽出によっていました。相関規則性による分かりやすい技術の一つとして、入り口の解析手法として入りやすかったのではないかと考えています。

 さて、「決定木分析」も、データマイニング手法の一つですが、もう少し定義を明確にすると、教師あり学習の一つに分類され、その中でも定められたクラス分類に関する問題を扱います。具体的には「決定木」と呼ばれる樹木状のモデルを使って何らかの結果が記録されたデータセットを分類することで、その結果に影響を与えた要因を分析し、その分類結果を利用して将来の予測を行います。

 将来予測の正解データについては、数値を扱う場合と2値ラベルや定性的な情報を扱う場合がありますが、特に数値のケースを回帰問題、ラベル化された判定結果を扱うものを識別と呼びます。決定木は識別問題として扱われます。このあたりは、理論上の定義であって、プログラミング実務の本質ではないのですが、理解しておくと、実務の世界で現場の誤解を招かずにプロジェクトを進めやすくなる利点はあるでしょう。このため、理解しておいて損はないでしょう。

 実際、データサイエンティストと名乗っていながらも、こういう基礎知識が構造化して理解されていないために、魔法の箱のような説明をする方が残念ながら多くいらっしゃいます。解析のためのアルゴリズムではなく、目的達成や最適化のためのアルゴリズムですから、こんなはずじゃなかったというリスクを軽減するためにも、特定の解析では何ができて何ができないのかをきちんと理解することは重要です。

 さて、決定木分析の活用範囲は広く、さまざまな業種、業態で活用されています。例えば、顧客別の購買履歴から自社の製品を購入している顧客の特徴を分析したり、金融機関の取引履歴から顧客属性別の貸し倒れリスクを測ったり、機械の動作ログから故障につながる指標を見つけ出したりといったことに決定木分析が利用されています。決定木分析が活用される代表的なビジネスシーンは、以下の表のようなものが挙げられます。

表:決定木分析の活用対象例
業種/業態 分析対象 活用により得られる効果
GMS・CVS・流通小売業全般 ・CRMデータ
・購買履歴
・ダイレクトメールへの
 応答ログ
・顧客セグメンテーションによる
 マーケティングの最適化
・サービス購入動機の把握
・サービス離脱原因の把握
・来客数予測と供給量の調整
・顧客の嗜好、選択基準の把握
Eコマース・デジタル
コンテンツ産業
・コンバージョンログ
・ユーザアクセスログ
外食産業 ・来店者属性別購買履歴
金融サービス ・定期預金加入者属性
・金融商品購買履歴
通信サービス・工業製品

・機器故障データ
・不良品データ
・生産管理システム
 データ

・通信障害や機器故障原因の把握
・不良品を生む要因の把握
・不良品率の予測と生産計画の
 精度向上

決定木分析の概要

 決定木分析の分析対象は、上にも例を挙げたようにビジネス結果や購買履歴などの何らかの結果が記録されたデータです。そのようなデータセットには、分析の対象となる結果―例えば、ある商品の購入有無等―と、その原因となっていると予測される属性―例えば、性別、年代、職業等―が一緒に記録されています。

 決定木分析では、このようなデータセットを結果とその属性に着目して逐次分割することで、分析モデルを作成していきます。このデータセットの分割は、分割後のそれぞれのデータセットにおける結果の適合度が高くなるような、言い換えれば「純度」がもっとも高くする属性と値で行われます。この分割時の結果の「純度」は、決定木分析のアルゴリズムによって異なった基準が定められていますが、基本的な考え方は同じ結果のデータはできるだけ同じノードに行くように分割することです。

 例えば、ある商品の購買有無が分析対象の結果であれば、分割後のデータセットの一方には、購入者のデータがより多く集まり、もう一方には非購入者のデータが多く集まるような属性と値を見つけ、その値でデータセットの分割を行います。

 決定木分析によって得られる分析モデルを具体的に見てみましょう。下図は、架空の決定木分析の結果を示した模式図です。とある店舗に来店した100人に対して「キャンペーン商品の購入有無」を「性別、これまでの購買回数」といった顧客属性から決定木分析したことが想定されています。

キャンペーン商品購入履歴の決定木分析の模式図

 決定木分析の結果から得られる分析モデルは、この図のように影響力の強い要素から順番に上から下へとデータセットが分割されていく樹形図で表現されます。この分析では、購買の有無に最も大きな影響を与えた顧客属性は「性別」で、そのうち、性別が女性の場合は「これまでの購入回数」が次に大きい影響を与えていることを示しています。

 また、各データセットの分割後には、分割後の一方に購入者データがより多く集まり、もう一方には非購入者のデータが多く集まっています。このような状態をデータセットの「純度」が高い、と表現します。決定木分析では、このように求める結果に対する影響の大きい属性で逐次分析することで、このような樹形図でのデータの可視化を行うことができます。

 決定木の一番上のノードは、ルートノード(根ノード)と呼ばれ、すべてのデータセットが対応するスタート地点となります。一番下のノードは、ターミナルノードもしくはリーフ(葉)ノードと呼ばれる最終的な分類結果を示すノードです。

 また、分析対象結果の変数(この例では「購入有無」)を統計分析の分野では一般に「目的変数」もしくは「被説明変数」といい、分析対象結果の説明に利用する変数(この例では、「性別、これまでの購買回数」といった顧客属性)を「説明変数」と言います。この用語は統計分析一般で使われている言葉なので、覚えておいてください。本稿でもこの後は、この用語を使いたいと思います。

 上記の用語を使うと、決定木分析は「目的変数」の「純度」をもっとも高める「説明変数」で分割し、樹木モデルの分析モデルを作成する手法ということができます。

※この続きは、会員の方のみお読みいただけます(登録無料)。


関連リンク

著者プロフィール

  • 工藤 卓哉 (クドウ タクヤ)

    Accenture Data Science Center of Excellence アクセンチュア アナリティクス 日本統括 マネジング・ディレクター 慶應義塾大学を卒業しアクセンチュアに入社。コンサルタントとして活躍後、コロンビア大学国際公共政策大学院で学ぶため退職。同大学...

  • 保科 学世(ホシナ ガクセ)

    アクセンチュア株式会社 デジタル コンサルティング本部 マネジング・ディレクター 慶應義塾大学大学院理工学研究科博士課程修了 理学博士。アクセンチュアにてAFS[Accenture Fulfillment Service]、ARS[Accenture Recommend Serv...

  • 佐伯 隆(サエキ タカシ)

    アクセンチュア株式会社 デジタル コンサルティング本部 アクセンチュア アナリティクス シニア・マネジャー  アクセンチュア アナリティクスにおいて、金融機関の合併に伴うデータ統合管理方針策定、通信事業者向けのビッグデータを活用したマーケティング促進システムの構築、公益事業会社向けデータ...

  • 飯澤 拓 (イイザワ ヒラク)

    アクセンチュア株式会社 デジタル コンサルティング本部 シニア・マネジャー  福島大学 経済学部卒業。 SAPなどを活用した大規模基幹システム開発から、ビッグデータを取り扱う分析基盤に至るまで、インフラ・アーキテクチャの設計と実装を専門とする。近年は通信事業者における位置情報データ活用プロジェ...

  • 石田 精一郎(イシダセイイチロウ)

    アクセンチュア株式会社 デジタルコンサルティング本部 コンサルタント  東京大学教養学部 基礎科学科 科学史科学哲学分科卒、外資系ベンダーを経てアクセンチュア入社。アナリティクス ソリューションのアーキテクチャ設計から実装、Hadoop、R、Pythonを使った分析実務を担当。オープンソース...

バックナンバー

連載:意志決定のためのデータサイエンス講座

もっと読む

All contents copyright © 2007-2017 Shoeisha Co., Ltd. All rights reserved. ver.1.5