Etsukunの日記

k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。

次の2ステップを繰り返す。

個々のデータポイントを最寄りのクラスタ重心に割り当てる
個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する

利点

比較的理解しやすい

比較的高速に実行できる

入力次元の数よりもはるかに多くのクラスタを使うことができる

欠点

比較的簡単な形しか見つけられない

全ての方向が同じように重要であると仮定する

初期化が乱数で行われるため、アルゴリズムが乱数のシードに依存する