Etsukunの日記

決定木

Yes/Noで答えられる質問で構成された階層的な木構造を学習する

すべての可能なテストの中から、目的変数に対して最も情報の量が多いものを選ぶ

過剰適合を防ぐ2つの戦略

事前枝刈り（Pre-pruning）・・・構築過程で木の生成を早めに止める

事後枝刈り（Post-pruning）・・・一度木を構築してから、情報の少ないノードを削除する

特徴量の重要度（Feature importance）・・・個々の特徴量がどの程度重要かを示す割合

利点

結果のモデルが容易に可視化可能

データのスケールに対して完全に不変（正規化や標準化は不要）

欠点

過剰適合しやすい

回帰の場合に、訓練データのレンジの外側に対しては予測できない

パラメータ

最大の深さ・・・木の成長の深さ

最小の葉（Leaf)・・・最小の葉に含まれる情報量の大きさの指定