1.多くのビジネスシーンで利用される決定木分析
前回紹介したAprioriアルゴリズムは、教師なしパターン認識の学習方式の一つで、基本技術を頻出項目の抽出によっていました。相関規則性による分かりやすい技術の一つとして、入り口の解析手法として入りやすかったのではないかと考えています。
さて、「決定木分析」も、データマイニング手法の一つですが、もう少し定義を明確にすると、教師あり学習の一つに分類され、その中でも定められたクラス分類に関する問題を扱います。具体的には「決定木」と呼ばれる樹木状のモデルを使って何らかの結果が記録されたデータセットを分類することで、その結果に影響を与えた要因を分析し、その分類結果を利用して将来の予測を行います。
将来予測の正解データについては、数値を扱う場合と2値ラベルや定性的な情報を扱う場合がありますが、特に数値のケースを回帰問題、ラベル化された判定結果を扱うものを識別と呼びます。決定木は識別問題として扱われます。このあたりは、理論上の定義であって、プログラミング実務の本質ではないのですが、理解しておくと、実務の世界で現場の誤解を招かずにプロジェクトを進めやすくなる利点はあるでしょう。このため、理解しておいて損はないでしょう。
実際、データサイエンティストと名乗っていながらも、こういう基礎知識が構造化して理解されていないために、魔法の箱のような説明をする方が残念ながら多くいらっしゃいます。解析のためのアルゴリズムではなく、目的達成や最適化のためのアルゴリズムですから、こんなはずじゃなかったというリスクを軽減するためにも、特定の解析では何ができて何ができないのかをきちんと理解することは重要です。
さて、決定木分析の活用範囲は広く、さまざまな業種、業態で活用されています。例えば、顧客別の購買履歴から自社の製品を購入している顧客の特徴を分析したり、金融機関の取引履歴から顧客属性別の貸し倒れリスクを測ったり、機械の動作ログから故障につながる指標を見つけ出したりといったことに決定木分析が利用されています。決定木分析が活用される代表的なビジネスシーンは、以下の表のようなものが挙げられます。
業種/業態 | 分析対象 | 活用により得られる効果 |
---|---|---|
GMS・CVS・流通小売業全般 |
・CRMデータ ・購買履歴 ・ダイレクトメールへの 応答ログ |
・顧客セグメンテーションによる マーケティングの最適化 ・サービス購入動機の把握 ・サービス離脱原因の把握 ・来客数予測と供給量の調整 ・顧客の嗜好、選択基準の把握 |
Eコマース・デジタル コンテンツ産業 |
・コンバージョンログ ・ユーザアクセスログ |
|
外食産業 | ・来店者属性別購買履歴 | |
金融サービス |
・定期預金加入者属性 ・金融商品購買履歴 |
|
通信サービス・工業製品 |
・機器故障データ |
・通信障害や機器故障原因の把握 ・不良品を生む要因の把握 ・不良品率の予測と生産計画の 精度向上 |
決定木分析の概要
決定木分析の分析対象は、上にも例を挙げたようにビジネス結果や購買履歴などの何らかの結果が記録されたデータです。そのようなデータセットには、分析の対象となる結果―例えば、ある商品の購入有無等―と、その原因となっていると予測される属性―例えば、性別、年代、職業等―が一緒に記録されています。
決定木分析では、このようなデータセットを結果とその属性に着目して逐次分割することで、分析モデルを作成していきます。このデータセットの分割は、分割後のそれぞれのデータセットにおける結果の適合度が高くなるような、言い換えれば「純度」がもっとも高くする属性と値で行われます。この分割時の結果の「純度」は、決定木分析のアルゴリズムによって異なった基準が定められていますが、基本的な考え方は同じ結果のデータはできるだけ同じノードに行くように分割することです。
例えば、ある商品の購買有無が分析対象の結果であれば、分割後のデータセットの一方には、購入者のデータがより多く集まり、もう一方には非購入者のデータが多く集まるような属性と値を見つけ、その値でデータセットの分割を行います。
決定木分析によって得られる分析モデルを具体的に見てみましょう。下図は、架空の決定木分析の結果を示した模式図です。とある店舗に来店した100人に対して「キャンペーン商品の購入有無」を「性別、これまでの購買回数」といった顧客属性から決定木分析したことが想定されています。
決定木分析の結果から得られる分析モデルは、この図のように影響力の強い要素から順番に上から下へとデータセットが分割されていく樹形図で表現されます。この分析では、購買の有無に最も大きな影響を与えた顧客属性は「性別」で、そのうち、性別が女性の場合は「これまでの購入回数」が次に大きい影響を与えていることを示しています。
また、各データセットの分割後には、分割後の一方に購入者データがより多く集まり、もう一方には非購入者のデータが多く集まっています。このような状態をデータセットの「純度」が高い、と表現します。決定木分析では、このように求める結果に対する影響の大きい属性で逐次分析することで、このような樹形図でのデータの可視化を行うことができます。
決定木の一番上のノードは、ルートノード(根ノード)と呼ばれ、すべてのデータセットが対応するスタート地点となります。一番下のノードは、ターミナルノードもしくはリーフ(葉)ノードと呼ばれる最終的な分類結果を示すノードです。
また、分析対象結果の変数(この例では「購入有無」)を統計分析の分野では一般に「目的変数」もしくは「被説明変数」といい、分析対象結果の説明に利用する変数(この例では、「性別、これまでの購買回数」といった顧客属性)を「説明変数」と言います。この用語は統計分析一般で使われている言葉なので、覚えておいてください。本稿でもこの後は、この用語を使いたいと思います。
上記の用語を使うと、決定木分析は「目的変数」の「純度」をもっとも高める「説明変数」で分割し、樹木モデルの分析モデルを作成する手法ということができます。