単変量非線形変換

特定の特徴量に有用であることが分かっている非線形変換 log exp sin などの数学関数をいて特徴量を変換する

2019-01-03

多項式特徴量（polynomial feature）

特徴量表現を豊かにする方法特徴量の多項式を新たな特徴量として利用する

2019-01-03

交互作用特徴量（interaction feature）

特徴量表現を豊かにする方法各特徴量の値を掛け合わせて新たな特徴量を作る

2019-01-03

ビニング（Binning)

連続値特徴量のデータ表現の一つ連続値の特徴量を複数のビンに分割することにより、複数の特徴量に分割する線形モデルに関しては、柔軟になるが、決定木に関しては、柔軟性が低下する。

2019-01-03

ワンホットエンコーディング（One-hot-encoding）

カテゴリ特徴量を表現する手法の一つダミー変数とも呼ばれる。カテゴリに含まれる要素の数だけ、特徴量を増やして、それぞれ1や0にセットする。常に追加された特徴量の内一つだけ1になるので、One-hot-encodingと呼ばれる。

2019-01-03

特徴量エンジニアリング

特定のアプリケーションに対して、最良のデータ表現を模索することデータ表現の種類連続値特徴量（Continuous Feature）・・・連続的に変化するカテゴリ特徴量（Discrete Feature）・・・連続的に変化しない

2019-01-03

正解データを用いないクラスタリングの評価

シルエット係数（silhouette coefficient）頑健性を用いたクラスタリング評価指標良い結果が得られても、そのクラスタリングに意味があるのかはわからない。結局、目で見て解析するしかない。

2019-01-03

正解データを用いたクラスタリングの評価

調整ランド指数（adjusted rand index：ARI）正規化相互情報量（normalized mutual information：NMI）最良の場合に1、関係ないクラスタリングの場合に0を取る

2019-01-03

DBSCAN（density-based spatial clustering of applications with noise）

データポイントを3種類に区分するコアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイントノイズ・・・指定した距離以内に指定…

2019-01-03

凝集型クラスタリング（agglomerative clustering）

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も類似した2つのクラスタを併合していく。何らかの終了条件が満たされるまで繰り返す。連結方法クラスタ内の分散の増分が最小になるように選択するクラスタ間のすべてのポイント間の距離の…

2019-01-03

k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。次の2ステップを繰り返す。個々のデータポイントを最寄りのクラスタ重心に割り当てる個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する利点比較的理解しやすい …

2019-01-03

t-SNE多様体学習

主に可視化に用いられるため、2つの新しい特徴量を生成するのに利用される探索的なデータ解析に有用がだ、教師あり学習にはほとんど用いられていない。

2019-01-03

非負値行列因子分解（NMF）

有用な特徴量を抽出することを目的とする強化なし学習手法である。係数と成分が非負であることが求められる。

2019-01-03

主成分分析（PCA）

データセットの特徴量を相互に統計的に関連しないように回転する手法回転した後の特徴量から、データを説明するのに重要な一部の特徴量だけを抜き出す。欠点軸の解釈が容易でない

2019-01-03

スケール変換の種類

方法1 個々の特徴量の平均が0、分散が1になるように変換する方法2 個々の特徴量の中央値が0、四分位数が1になるように変換する方法3 最小値が0、最大値が1になるように変換する方法4 特徴量ベクトルがユークリッド長1になるように変換する

2019-01-03

教師無し学習（Unsupervised transformation）

データセットの変換次元削減・・・高次元の入力を少量の本質的な特徴を表す特徴量でそのデータを表すようやく方法を見つけるクラスタリンググループ分けする

2019-01-03

ユークリッド距離　（Euclidean distance）

2点間の通常の直線距離の事

2019-01-03

クラス分類の不確実性推定

決定関数モデルが信じている度合いがエンコードされている正であれば陽性クラスが、負であれば陰性クラスを意味する決定関数はどのようなスケールで表示されるかわからないので、解釈が難しい確率の予測それぞれのクラスに属する確率を予測する決定関…

Etsukunの日記

2019-01-03から1日間の記事一覧

単変量非線形変換

多項式特徴量（polynomial feature）

交互作用特徴量（interaction feature）

ビニング（Binning)

ワンホットエンコーディング（One-hot-encoding）

特徴量エンジニアリング

正解データを用いないクラスタリングの評価

正解データを用いたクラスタリングの評価

DBSCAN（density-based spatial clustering of applications with noise）

凝集型クラスタリング（agglomerative clustering）

k-meansクラスタリング

t-SNE多様体学習

非負値行列因子分解（NMF）

主成分分析（PCA）

スケール変換の種類

教師無し学習（Unsupervised transformation）

ユークリッド距離　（Euclidean distance）

クラス分類の不確実性推定