DBSCAN(density-based spatial clustering of applications with noise)

データポイントを3種類に区分する

コアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント

境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイント

ノイズ・・・指定した距離以内に指定したデータ件数以上のデータポイントが無いデータポイント

 

利点

クラスタ数を先験的に与える必要がない

どのクラスタにも属さない点を判別できる

 

欠点

k-meansや凝集型クラスタリングよりも遅い

 

パラメータ

コアポイントからの距離

コアポイントと認識される最小のデータ件数