決定木

Yes/Noで答えられる質問で構成された階層的な木構造を学習する

すべての可能なテストの中から、目的変数に対して最も情報の量が多いものを選ぶ

 

過剰適合を防ぐ2つの戦略

事前枝刈り(Pre-pruning)・・・構築過程で木の生成を早めに止める

事後枝刈り(Post-pruning)・・・一度木を構築してから、情報の少ないノードを削除する

 

特徴量の重要度(Feature importance)・・・個々の特徴量がどの程度重要かを示す割合

 

利点

結果のモデルが容易に可視化可能

データのスケールに対して完全に不変(正規化や標準化は不要)

 

欠点

過剰適合しやすい

回帰の場合に、訓練データのレンジの外側に対しては予測できない

 

パラメータ

最大の深さ・・・木の成長の深さ

最小の葉(Leaf)・・・最小の葉に含まれる情報量の大きさの指定