2019-01-03から1日間の記事一覧
特定の特徴量に有用であることが分かっている非線形変換 log exp sin などの数学関数をいて特徴量を変換する
特徴量表現を豊かにする方法 特徴量の多項式を新たな特徴量として利用する
特徴量表現を豊かにする方法 各特徴量の値を掛け合わせて新たな特徴量を作る
連続値特徴量のデータ表現の一つ 連続値の特徴量を複数のビンに分割することにより、複数の特徴量に分割する 線形モデルに関しては、柔軟になるが、決定木に関しては、柔軟性が低下する。
カテゴリ特徴量を表現する手法の一つ ダミー変数とも呼ばれる。 カテゴリに含まれる要素の数だけ、特徴量を増やして、それぞれ1や0にセットする。 常に追加された特徴量の内一つだけ1になるので、One-hot-encodingと呼ばれる。
特定のアプリケーションに対して、最良のデータ表現を模索すること データ表現の種類 連続値特徴量(Continuous Feature)・・・連続的に変化する カテゴリ特徴量(Discrete Feature)・・・連続的に変化しない
シルエット係数(silhouette coefficient) 頑健性を用いたクラスタリング評価指標 良い結果が得られても、そのクラスタリングに意味があるのかはわからない。結局、目で見て解析するしかない。
調整ランド指数(adjusted rand index:ARI) 正規化相互情報量(normalized mutual information:NMI) 最良の場合に1、関係ないクラスタリングの場合に0を取る
データポイントを3種類に区分する コアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント 境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイント ノイズ・・・指定した距離以内に指定…
個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も類似した2つのクラスタを併合していく。何らかの終了条件が満たされるまで繰り返す。 連結方法 クラスタ内の分散の増分が最小になるように選択する クラスタ間のすべてのポイント間の距離の…
データの領域を代表するようなクラスタ重心を見つけようとする。 次の2ステップを繰り返す。 個々のデータポイントを最寄りのクラスタ重心に割り当てる 個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する 利点 比較的理解しやすい …
主に可視化に用いられるため、2つの新しい特徴量を生成するのに利用される 探索的なデータ解析に有用がだ、教師あり学習にはほとんど用いられていない。
有用な特徴量を抽出することを目的とする強化なし学習手法である。 係数と成分が非負であることが求められる。
データセットの特徴量を相互に統計的に関連しないように回転する手法 回転した後の特徴量から、データを説明するのに重要な一部の特徴量だけを抜き出す。 欠点 軸の解釈が容易でない
方法1 個々の特徴量の平均が0、分散が1になるように変換する 方法2 個々の特徴量の中央値が0、四分位数が1になるように変換する 方法3 最小値が0、最大値が1になるように変換する 方法4 特徴量ベクトルがユークリッド長1になるように変換する
データセットの変換 次元削減・・・高次元の入力を少量の本質的な特徴を表す特徴量でそのデータを表すようやく方法を見つける クラスタリング グループ分けする
2点間の通常の直線距離の事
決定関数 モデルが信じている度合いがエンコードされている 正であれば陽性クラスが、負であれば陰性クラスを意味する 決定関数はどのようなスケールで表示されるかわからないので、解釈が難しい 確率の予測 それぞれのクラスに属する確率を予測する 決定関…