DBSCAN(density-based spatial clustering of applications with noise)

データポイントを3種類に区分する

コアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント

境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイント

ノイズ・・・指定した距離以内に指定したデータ件数以上のデータポイントが無いデータポイント

 

利点

クラスタ数を先験的に与える必要がない

どのクラスタにも属さない点を判別できる

 

欠点

k-meansや凝集型クラスタリングよりも遅い

 

パラメータ

コアポイントからの距離

コアポイントと認識される最小のデータ件数

 

凝集型クラスタリング(agglomerative clustering)

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も類似した2つのクラスタを併合していく。何らかの終了条件が満たされるまで繰り返す。

 

連結方法

  • クラスタ内の分散の増分が最小になるように選択する
  • クラスタ間のすべてのポイント間の距離の平均値が最小の2クラスを選択する
  • 2つのクラスタの点間の距離の最大値が最小となるものを選択する

k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。

 

次の2ステップを繰り返す。

  1. 個々のデータポイントを最寄りのクラスタ重心に割り当てる
  2. 個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する

利点

比較的理解しやすい

比較的高速に実行できる

入力次元の数よりもはるかに多くのクラスタを使うことができる

 

欠点

比較的簡単な形しか見つけられない

全ての方向が同じように重要であると仮定する

初期化が乱数で行われるため、アルゴリズムが乱数のシードに依存する