k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。

 

次の2ステップを繰り返す。

  1. 個々のデータポイントを最寄りのクラスタ重心に割り当てる
  2. 個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する

利点

比較的理解しやすい

比較的高速に実行できる

入力次元の数よりもはるかに多くのクラスタを使うことができる

 

欠点

比較的簡単な形しか見つけられない

全ての方向が同じように重要であると仮定する

初期化が乱数で行われるため、アルゴリズムが乱数のシードに依存する