決定木は、データ分析や予測モデルの作成に広く用いられる強力なツールです。
視覚的にわかりやすい状態で表現され、直感的に理解しやすいため、複雑なデータを分析する際に特に有効です。
この記事では、決定木の基本的な概念を解説し、その活用方法や利点、限界について詳しく説明します。また、マーケティングにおける具体的な応用例や決定木の作成方法についても触れていくので、参考にしてみてください。
小中規模プロジェクトを中心にSEやコンサルとして活動。クラウド導入やスタートアップ、新規事業開拓の支援も経験しました。
決定木(けっていぎ・ディシジョンツリー)とは?

決定木(けっていぎ・ディシジョンツリー)は、複雑なデータを理解しやすい形に整理するための強力なツールです。
「はい・いいえ」といった単純な質問を重ねていくことで、最終的な判断や予測を導き出します。
決定木の大きな特徴は、判断過程が視覚的に理解しやすく、結果の説明が容易なことです。例えば「天気が良くて、休日なら、ピクニックに行く」といった判断を、誰にでもわかりやすく図で表現できます。
ビジネスでは、顧客の購買予測、ローンの審査、商品のおすすめなど、様々な場面で活用されています。また、データの前処理が比較的簡単で、欠損値があっても分析できるという利点もあります。
データが少し変わると結果が大きく変化したり、複雑になりすぎると精度が落ちるといった課題もあります。
この決定木を用いて変数を見つけ出す分析方法を、「決定木分析」と呼びます。
決定木の型の種類

決定木には主に分類木と回帰木の2つの種類があります。
| 項目 | 目的の違い | 出力の違い | 使い方の違い |
| 分類木 | グループ分け | カテゴリー(種類) | 「これは何か?」という問いに答える |
| 回帰木 | 数値の予測 | 具体的な数値 | 「いくつ?」「いくら?」という問いに答える |
データの性質に合わせてそれぞれの手法を選ぶことで、分析の精度が大幅に向上し、より有効な意思決定が可能となります。それぞれの特徴を見ていきましょう。
分類木
分類木は質的変数、つまりカテゴリーを扱うための手法です。明確なカテゴリーに分類する問題に適しています。
例えば以下のようなことです。
- 「はい」か「いいえ」で答える質問
- 商品を「良品」か「不良品」に分ける
- 動物を「犬」「猫」「鳥」などに分類する
メールが「迷惑メール」かどうかの判断や顧客が「商品を買う」か「買わない」かの予測、病気の診断補助に使われます。
分類木ではデータを分類する際、それぞれのノードは最も情報量の多い属性にもとづいて分岐を行います。
回帰木
回帰木は量的変数、すなわち数値を予測することに焦点を当てています。
例えば以下のようなことです。
- 家の価格を予測する
- 明日の気温を予測する
- 商品の売上数を予測する
中古車の売値予測や電気の使用量予測、社員の給料予測に使われます。
回帰木はデータセットをサブセットに分け、それぞれのサブセットで平均値や中央値などの統計量を利用して予測を行います。
決定木分析からわかること

決定木分析は、データから意味あるパターンや関係性を抽出する有効な手段です。
「決定木」の理解を深めるためには「予測モデル」についての理解を深めなければなりません。以下の記事では予測モデルについて詳しく記載しているので、ぜひ参考にしてみてください。
どの情報が結果に一番影響するか
決定木は、最も重要な情報から順番に判断していきます。
例えば、果物の値段を予測する場合を見てみましょう。
- 一番影響が大きいのは「季節」かもしれません
- 次に「産地」が影響するかもしれません
- その次は「大きさ」という順番になるかもしれません
どの要素が最も大切なのかが、木の形を見るだけでわかります。
どんな基準で判断するか
決定木は、データを分ける時の具体的な基準を教えてくれます。
例えば、りんごの品質判断をする場合を見てみましょう。
- 重さが300g以上か?
- 傷の数が3個未満か?
- 色の濃さは基準値以上か?
このような具体的な判断基準がはっきりとわかります。
データをどう分類できるか
データの分け方のパターンを見ることができます。お客様の購買行動の分類で例を見ていきましょう。
- 年齢30歳以下の場合
SNSをよく見る人→オンライン広告が効果的
SNSをあまり見ない人→店頭広告が効果的
- 年齢30歳以上の場合
都市部在住→電車広告が効果的
郊外在住→新聞広告が効果的
データの特徴に基づいて、最適な対応方法を見つけることができます。
複数の要素が絡み合うとどんな影響があるか
要素同士の組み合わせがどのように結果に影響するかがわかります。レストランの売上予測を例にしてみましょう。
- 休日で、晴れの場合→売上増加
- 休日でも、雨の場合→売上普通
- 平日で、セール中→売上やや増加
- 平日で、セールなし→売上普通
複数の条件が重なった時の影響を事前に予測し、対策を立てることができます。
なぜそう予測したか
決定木は、予測や判断に至った理由を簡単に説明できます。ローン審査の場合を例に見てみましょう。
- 年収が基準以上
- 勤続年数が5年以上
- 返済履歴が良好
→「承認」と判断した理由が明確
この透明性により、判断の根拠を具体的に説明することができます。
判断の段階がいくつあるか
決定を下すまでに必要な判断の数がわかります。商品の返品可否判断を例に見てみましょう。
- 購入から14日以内か確認
- 商品の状態を確認
- 領収書の有無を確認
→3段階の判断が必要とわかる
判断プロセスを最適化し、必要な手順を明確にすることができます。
決定木のメリット

決定木は多くのメリットを持つ強力な解析ツールです。ここでは以下4つのメリットを紹介します。
- 結果が分かりやすい
- 必要な前処理が少ない
- 汎用性が高い
- 分類と回帰に対応している
それぞれ詳しく解説します。
結果が分かりやすい
1つ目のメリットは、結果が非常に分かりやすいことです。質問と答えの形式でデータを分析し、シンプルな「はい/いいえ」の選択肢を通じて情報を分岐させます。
これにより、結果の解釈が容易になり、専門的な知識がない人でも理解しやすい形でデータを得ることができます。そのため、顧客の購買パターンを分析する際、どの要因が購入に大きく影響しているのかを直観的に把握することが可能です。
必要な前処理が少ない
2つ目のメリットは、必要な前処理が少ないことです。多くの機械学習モデルでは、データを正規化したり、欠損値を処理したりする必要がありますが、決定木は元のデータのスケールや分布に左右されにくいため、そのような前処理が比較的少なくて済みます。
これにより、データの準備段階での手間が削減され、迅速に分析を開始できる利点があります。特に、異なるタイプのデータ(数値データとカテゴリデータ)が混在する場合でも、効果的に扱うことができるため、幅広い問題に対応可能です。
汎用性が高い
3つ目のメリットは、その汎用性の高さです。決定木は分類問題だけでなく、回帰問題にも適用できるため、さまざまな種類のデータや問題設定に対応可能です。
また、テキスト、数値、カテゴリカルデータなど、異なるタイプのデータを扱うことができるため、多様な業界やシナリオで利用されています。
たとえば、金融リスクの評価、顧客のセグメント化、医療診断など、広範囲にわたる問題解決に活用されています。このような汎用性により、決定木は非常に有用なデータ分析ツールとなっています。
分類と回帰に対応している
4つ目のメリットは、分類問題と回帰問題の両方に対応していることです。この柔軟性により、質的データ(カテゴリー)の分類だけでなく、量的データ(数値)の予測にも使用できます。このため、様々な産業で顧客の行動分析や価格予測、疾病のリスク評価など、幅広い用途に適用されています。
決定木がこれらの異なるタイプの問題に対応できることは、そのユーザビリティと適用範囲の広さを示しており、多様なデータセットに対して一貫した方法でアプローチできる大きな強みとなっています。
決定木のデメリット

決定木は多くのメリットを持つ一方で、いくつかのデメリットも存在します。これらのデメリットを理解することで、より効果的なデータ分析を行うことが可能となります。ここでは、主なデメリットを3つ紹介します。
- 分岐の数が少ないと精度が落ちる
- 複雑な予測に対応できない
- 結果が大きく変化する場合がある
それぞれ詳しく解説します。
分岐の数が少ないと精度が落ちる
1つ目のデメリットは、分岐の数が少ないと精度が落ちることです。決定木はデータを分類または予測する際、情報量に基づいてノードを分岐させますが、分岐数が不十分な場合、モデルはデータの複雑なパターンや相互作用を捉えることができません。
そのため、特に多様性の高いデータセットや多次元の特徴を持つデータに対して、適切な学習が行われず、予測精度が低下する可能性があります。この問題は、決定木が単純な構造であるがゆえに発生し、より複雑なモデルと比較して、一部のシナリオでは劣る結果を招くことがあります。
複雑な予測に対応できない
2つ目のデメリットは、複雑な予測問題に対応できないことです。決定木は基本的に単純なルールに基づいてデータを分割するため、非線形や多次元の複雑なデータ関係を適切にモデル化する能力が限られます。
特に、変数間に複雑な相互作用がある場合、これらを捉えるのが難しく、結果として予測の精度が低下することがあります。
また、過剰適合を防ぐために木の深さを制限すると、さらにモデルの表現力が制限され、複雑なパターンの学習が不十分になるケースもあるでしょう。そのため、高度に複雑なデータセットを扱う場合には他のより複雑なモデルの方が適切な場合が多いです。
結果が大きく変化する場合がある
3つ目のデメリットは、入力データの小さな変更で結果が大きく変化することがある点です。決定木はデータの分割ポイントを選択する際に、現在のデータセットに基づいて最適な分岐を決定します。
そのため、訓練データにわずかな変更があった場合、新しいデータに基づいて全く異なる分岐が生成されることがあります。この性質は、モデルの安定性と信頼性に影響を及ぼし、特にデータが少ない場合や外れ値が含まれている場合に顕著になります。
このように、決定木はデータに敏感であるため、より堅牢なアプローチが求められる状況では他の手法を検討する必要があります。
決定木分析の方法

決定木を作成する方法には、分岐基準の設定、変数選択、そしてこれらを自動化するプロセスがあります。
ここでは、決定木の3つの作成方法について詳しく解説します。
1.分岐基準
2.変数選択
3.自動化
それぞれ詳しく解説します。
1.分岐基準
分岐基準とは、決定木を構築する際に使用される基準で、データを分割する最適な場所と方法を決定するために使われます。
主に、データセットをより小さなサブセットに効果的に分けるための「ルール」や「質問」を設定するために利用されます。これにより、最終的な予測モデルがより正確な予測や分類を行えるようになります。
分岐基準には以下のようなものがあります。
- 情報利得(Information Gain)
- ジニ不純度(Gini Impurity)
- エントロピー(Entropy)
これらの基準を使用して、各ノードでデータを最も効果的に分割できる特徴を選択します。
たとえば、情報利得を基準にする場合、特定の属性が与える情報によって分割前後のデータの不確実性の減少量を計算し、最も情報利得が高い属性でデータを分割します。この方法では、分割によって得られる情報の純度を最大化させることを目的とします。
このようにして選ばれた分岐基準は、決定木の各ノードでデータをより純粋なサブグループに分けるためのルールとなり、最終的にはより正確に分類できるようになります。分岐基準の選択は、決定木の性能と効果を大きく左右するため、非常に重要です。
2.変数選択
変数選択とは、データ分析やモデリングにおいて、予測や分類の精度を高めるために最も重要な変数を選び出すプロセスです。
この手法は特に大量の変数が存在するデータセットで有効であり、無関係または冗長な変数を排除することで、モデルの過学習を防ぎ、計算効率を向上させます。
変数選択の方法には、以下3つの方法があります。
- フィルター法
- ラッパー法
- 埋め込み法
フィルター法はデータの特徴だけを見て変数を選ぶのに対し、ラッパー法は特定のモデルの予測性能を基準に変数を選択します。
埋め込み法は学習過程で変数の重要度を評価し、選択を行います。これらの変数をうまく選択することによって、効果的なモデル構築が実現可能となります。
3.自動化
決定木における自動化とは、決定木の構築、トレーニング、および最適化プロセスをソフトウェアが自動で行うことを指します。
この自動化により、データの前処理、最適な分岐基準の選定、木の深さや分岐数の決定など、決定木モデルの開発に必要な手順が効率的に実行されます。
自動化は、手動でのモデル調整に比べて時間と労力を節約できるだけでなく、モデルの一貫性と再現性を向上させる利点があります。
また、自動化ツールを使用することで、専門家ではない人も高度な分析を行うことが可能になり、より幅広いアプリケーションで決定木が利用できます。特に大規模なデータセットや複数のモデルを同時に扱う際に役立ちます。
決定木分析の作り方 
決定木分析は、Pythonのscikit-learnのようなライブラリを使うと効率的に実施できます。ここでは、確実に分析を成功させるための詳しい手順を説明します。
1. データの準備
分析の土台となるデータを整えます。この段階での丁寧な作業が、後の分析の質を大きく左右します。
必要な準備は以下の通りです。
- データのクリーニング
重複データの削除
明らかな入力ミスの修正
表記ゆれの統一(例:「東京」と「東京都」)
- 欠損値の対処
数値データ:平均値や中央値で補完
カテゴリデータ:最頻値で補完
重要なデータの場合は、欠損理由を確認 - 異常値の処理
箱ひげ図などで異常値を確認
異常値の原因調査
必要に応じて修正や除外
- データの形式変換
文字列→数値への変換
カテゴリ変数のエンコーディング
日付データの形式統一
2. 特徴量と目的変数の選択
予測モデルの核となる変数を慎重に選択します。
目的変数の選択ポイントは以下の通りです。
- 明確な定義があること
- 測定可能であること
- ビジネス価値があること
特徴量の選択ポイントは次の通りです。
- 目的変数との関連性
- データの取得しやすさ
- 更新頻度
- コスト
3. データの分割
モデルの学習と評価のために、データを適切に分割します。
基本的な分割方法を紹介します。
- ランダム分割
学習用:70%
検証用:15%
テスト用:15%
- 時系列を考慮した分割
過去のデータ:学習用
直近のデータ:テスト用
データ分割では各グループの特徴量の分布を確認し、データの偏りをなくして十分なサンプルサイズを確保するようにしましょう。
4. 木の成長(学習)
決定木を段階的に成長させ、最適な分岐点を見つけます。成長プロセスは次の通りです。
- 最初の分岐点を決める
全ての特徴量で分割を試す
最も効果的な分割を選択 - 枝分かれを作る
各ノードで同じプロセスを繰り返す
情報利得や不純度の減少を計算 - 分岐の評価
各分岐の効果を数値化
改善度合いを確認
5. 停止条件の設定
木の成長を適切にコントロールするための条件を設定します。主な停止条件は次の通りです。
- ノードサイズによる制限
最小サンプル数:10以上
親ノードの最小サンプル数:20以上
- 木の構造による制限
最大の深さ:5階層まで
最大の葉ノード数:20個まで
- 精度による制限
分割による改善度の最小値:0.01
不純度の最小値:0.1
6. 枝刈り(プルーニング)
過学習を防ぎ、モデルをシンプルにするために不要な枝を刈り取ります。
枝刈りの方法は次の通りです。
- 事後枝刈り
完全に成長した木から不要な枝を削除
検証データで性能を確認 - 事前枝刈り
成長段階で枝の成長を制限
停止条件による制御
精度への影響が小さい枝の特定やコスト効果の分析、解釈のしやすさの考慮が判断基準となります。
7. モデルの評価
作成したモデルの性能を複数の観点から評価します。評価の観点を紹介します。
精度指標
- 分類の場合
正解率(Accuracy)
適合率(Precision)
再現率(Recall)
F1スコア - 回帰の場合
平均二乗誤差(MSE)
二乗平均平方根誤差(RMSE)
決定係数(R²)
ビジネス指標
- コスト削減効果
- 売上への影響
- 業務効率化の度合い
運用面での評価
- 処理速度
- メンテナンス性
- 解釈のしやすさ
8. チューニングと再学習
モデルの性能を向上させるための調整を行います。
チューニングの手順を紹介します。
- パラメータの調整
木の深さの上限
最小サンプル数
分割基準 - 特徴量の見直し新しい特徴量の追加
不要な特徴量の削除
特徴量の変換 - データの見直し
サンプリング方法の変更
データクリーニングの強化
新しいデータの追加
決定木をマーケティングで活用できる場面

それでは次に、決定木をマーケティングで活用する具体的な場面を3つ紹介します。
- 商品やサービスのターゲット選定
- 顧客満足度につながる要因の決定
- 顧客離脱につながる要因の把握
それぞれ詳しく見ていきましょう。
商品やサービスのターゲット選定
決定木はマーケティングにおいて、商品やサービスのターゲット選定に非常に役立つツールです。具体的には、顧客データベースから顧客の購買履歴、年齢、収入、居住地域、ライフスタイルなどの変数を抽出し、これらのデータを基にして顧客群を分類します。
たとえば、あるファッションブランドが新しい衣料品ラインを市場に導入する場合、決定木を用いて顧客データを分析することで、どの顧客グループが新製品に興味を持ちやすいかを予測できます。つまり、顧客を異なるセグメントに分け、それぞれのセグメントに対して最適なマーケティング戦略を立案するのに役立つということです。
この分析力を用いて、若年層に人気のデザイン特性や、高収入層が好むブランドの価値を反映させたプロモーションを展開することができます。
顧客満足度につながる要因の決定
顧客満足度に影響を与える要因を決定する際、決定木分析が非常に有効です。この分析により、顧客の満足度に最も影響を与える要素が何であるかを明確に把握できます。たとえば、サービスの速さ、品質、価格、顧客サービスの対応など、複数の変数からどの要素が顧客満足に直結しているかを特定できます。
決定木を使うことで、異なる顧客セグメントがどの要因によって満足感が変わるかを視覚的に分析し、それぞれの顧客群に最適な改善策を提案することが可能です。たとえば、高価格帯の商品を利用する顧客層では品質が満足度に大きく影響しているといったことがわかり、品質向上に役立ちます。
顧客離脱につながる要因の把握
顧客離脱につながる要因を把握するには、決定木分析が非常に役立ちます。このアプローチによって、サービスの質、価格の適切さ、顧客サポートの効果など、顧客がサービスを解約する理由となる要素が明確になります。
例えば、通信サービスの会社が顧客離脱の原因を分析する場合、決定木を使用してデータから離脱に最も影響力のある変数を特定します。この結果から、プランの価格やデータ容量、カバー範囲などが顧客離脱に関連していることが見えてきます。
この分析により、企業は特定の問題点に対処し、顧客がサービスを継続するための改善策を講じることができます。これによって顧客の満足度を向上させ、結果として離脱率を低下させる効果的な戦略を立てることが可能になります。
まとめ:決定木は機械学習の1つ

決定木は、データの特性を理解し、予測モデルを構築するための強力なツールであり、その結果が分かりやすく、前処理が少なくて済み、また汎用性が高いというメリットがあります。
一方で、分岐の数が少ないと精度が落ちたり、複雑な予測に対応できなかったり、結果が大きく変化することがあるというデメリットもあります。
しかし、適切に使用することで商品やサービスのターゲット選定、顧客満足度につながる要因の決定、顧客離脱につながる要因の把握など、マーケティングの様々な面で活用できるでしょう。ぜひ今回の内容も参考に決定木の理解を深めてみてください。
Jiteraでは、要件定義を書くだけでAIがアプリ・システムを開発するプラットフォームJiteraを軸としてアプリ・システム開発を行っています。
Jiteraを使用すると、プログラミングの詳細な知識がなくても、あなたのアイデアを具体的な形にすることが可能です。詳しくはお問い合わせください。

