k-最近傍法(k-NN)

クラス分類

訓練データセットの中から一番近い点(再近傍点)を見つける分類方法。

1点以上の近傍点を考慮に入れる場合は、投票で分類する。

多くの近傍点を考慮すると単純なモデルとなる。

少ない近傍点を考慮すると複雑なモデルとなる。

 

決定境界(Decision boundary)・・・異なるクラス間の境界

 

回帰

1点の近傍点を用いる予測では、再近傍点の値をそのまま利用する

複数の再近傍点を用いる予測では、再近傍点の平均値を利用する

 

利点

モデルが理解しやすい

あまり調整しなくても十分に高い性能を示す

 

欠点

訓練セットが大きくなると、予測が遅くなる

多数の特徴量(数100以上)を持つデータセットではうまく機能しない

 

パラメータ

近傍点の数

データポイント間の距離の計算方法(ユークリッド距離等)