2クラス分類における基準

2クラス分類陽性（Positive)・・・ターゲットとなるクラス陰性（Negative) 混合行列 2クラス分類の評価結果を表現する方法で以下の4つに分類される真陽性（True positive）・・・・正しい陽性の判断 TPとも呼ばれる偽陽性（False positive)・・・間違っ…

2019-01-06

グリッドサーチ（grid search）

パラメータをチューニングしてモデルの汎化性能を向上させる方法の一つパラメータのすべての組み合わせに対して試してみる方法単純なグリッドサーチすべてのパラメータに対して単にループしてチューニングする方法データセットを訓練セット、検証セット…

2019-01-05

シャッフル分割交差検証（shuffle-split cross-validation）

毎回指定したデータポイント数の訓練セットと、テストセットをデータセットから抜き出し、これを複数回繰り返す。利点訓練セットとテストセットのサイズとは独立して繰り返し回数を制御できる。

2019-01-05

k分割交差検証（k-fold cross-validation）

汎化性能を評価する統計的手法データセットをk分割して、それぞれの分割されたデータセットをテストセットして使い、残りのデータセットを訓練セットとして利用する。それぞれの精度を計算する。層化k分割交差検証（stratified k-fold cross-validation）…

2019-01-05

モデルの評価ー訓練セットとテストセットの分割

訓練セットを用いてモデルを構築し、テストセットを用いて評価する

2019-01-05

反復選択（iterative selection）

異なる特徴量を用いた一連のモデルを作る反復する方法は主に以下の2種類まったく特徴量を使わないところから、ある基準が満たされるところまで１つずつ特徴量を加えていく方法すべての特徴量を使う状態から一つずつ特徴量を取り除いて行く方法

2019-01-05

モデルベース選択（model-based selection）

教師あり学習モデルを用いて個々の特徴量の重要性を判断し、重要なものだけを残す手法線形モデルの場合・・・係数の絶対値を取り、大きいものを抽出決定木モデルの場合・・・特徴量の重要性の属性を用いて抽出利点すべての特徴量を同時に考慮する

2019-01-05

単変量統計（univariate statistics）

個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する特徴量が多すぎてモデルを作ることができないような場合や多くの特徴量が全く関係ないと思われる場合に有用利点計算が高速モデルを構築する必要がない欠点個々の特徴量を…

2019-01-03

単変量非線形変換

特定の特徴量に有用であることが分かっている非線形変換 log exp sin などの数学関数をいて特徴量を変換する

2019-01-03

多項式特徴量（polynomial feature）

特徴量表現を豊かにする方法特徴量の多項式を新たな特徴量として利用する

2019-01-03

交互作用特徴量（interaction feature）

特徴量表現を豊かにする方法各特徴量の値を掛け合わせて新たな特徴量を作る

2019-01-03

ビニング（Binning)

連続値特徴量のデータ表現の一つ連続値の特徴量を複数のビンに分割することにより、複数の特徴量に分割する線形モデルに関しては、柔軟になるが、決定木に関しては、柔軟性が低下する。

2019-01-03

ワンホットエンコーディング（One-hot-encoding）

カテゴリ特徴量を表現する手法の一つダミー変数とも呼ばれる。カテゴリに含まれる要素の数だけ、特徴量を増やして、それぞれ1や0にセットする。常に追加された特徴量の内一つだけ1になるので、One-hot-encodingと呼ばれる。

2019-01-03

特徴量エンジニアリング

特定のアプリケーションに対して、最良のデータ表現を模索することデータ表現の種類連続値特徴量（Continuous Feature）・・・連続的に変化するカテゴリ特徴量（Discrete Feature）・・・連続的に変化しない

2019-01-03

正解データを用いないクラスタリングの評価

シルエット係数（silhouette coefficient）頑健性を用いたクラスタリング評価指標良い結果が得られても、そのクラスタリングに意味があるのかはわからない。結局、目で見て解析するしかない。

2019-01-03

正解データを用いたクラスタリングの評価

調整ランド指数（adjusted rand index：ARI）正規化相互情報量（normalized mutual information：NMI）最良の場合に1、関係ないクラスタリングの場合に0を取る

2019-01-03

DBSCAN（density-based spatial clustering of applications with noise）

データポイントを3種類に区分するコアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイントノイズ・・・指定した距離以内に指定…

2019-01-03

凝集型クラスタリング（agglomerative clustering）

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も類似した2つのクラスタを併合していく。何らかの終了条件が満たされるまで繰り返す。連結方法クラスタ内の分散の増分が最小になるように選択するクラスタ間のすべてのポイント間の距離の…

2019-01-03

k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。次の2ステップを繰り返す。個々のデータポイントを最寄りのクラスタ重心に割り当てる個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する利点比較的理解しやすい …

2019-01-03

t-SNE多様体学習

主に可視化に用いられるため、2つの新しい特徴量を生成するのに利用される探索的なデータ解析に有用がだ、教師あり学習にはほとんど用いられていない。

2019-01-03

非負値行列因子分解（NMF）

有用な特徴量を抽出することを目的とする強化なし学習手法である。係数と成分が非負であることが求められる。

2019-01-03

主成分分析（PCA）

データセットの特徴量を相互に統計的に関連しないように回転する手法回転した後の特徴量から、データを説明するのに重要な一部の特徴量だけを抜き出す。欠点軸の解釈が容易でない

2019-01-03

スケール変換の種類

方法1 個々の特徴量の平均が0、分散が1になるように変換する方法2 個々の特徴量の中央値が0、四分位数が1になるように変換する方法3 最小値が0、最大値が1になるように変換する方法4 特徴量ベクトルがユークリッド長1になるように変換する

2019-01-03

教師無し学習（Unsupervised transformation）

データセットの変換次元削減・・・高次元の入力を少量の本質的な特徴を表す特徴量でそのデータを表すようやく方法を見つけるクラスタリンググループ分けする

2019-01-03

ユークリッド距離　（Euclidean distance）

2点間の通常の直線距離の事

2019-01-03

クラス分類の不確実性推定

決定関数モデルが信じている度合いがエンコードされている正であれば陽性クラスが、負であれば陰性クラスを意味する決定関数はどのようなスケールで表示されるかわからないので、解釈が難しい確率の予測それぞれのクラスに属する確率を予測する決定関…

2019-01-02

ニューラルネットワークー多層パーセプトロン（multilayer perceptron）

それぞれの入力値に重み付きの係数をかけ和を計算し、非線形関数を適用し、隠れユニットの入力値とする非線形関数にはRelu（Rectified Linear Unit）やtanh（Hyperbolic tangent）が用いられる。利点複雑なモデルを構築できる欠点訓練に時間がかかるデ…

2019-01-02

カーネル法を用いたサポートベクタマシン

より複雑なモデルを可能にするために線形サポートベクタマシンを拡張したものサポートベクタ・・・2つのクラスの境界に位置するごく一部の訓練データポイントだけが決定境界を決定する。これらのデータポイントのことカーネルトリック・・・拡張された特徴…

2019-01-02

勾配ブースティング回帰木（勾配ブースティングマシン）

1つ前の決定木の誤りを次の決定木で訂正するようにして、決定木を順番に作っていく利点ランダムフォレストに比べると性能がいい特徴量のスケール変換が不要欠点パラメータのチューニングに最新の注意が必要訓練にかかる時間が長いパラメータ事前枝刈…

2019-01-02

ランダムフォレスト

少しづつ異なる決定木をたくさん集めたもの過剰適合の度合いを減らすことができる。利点非常に強力である多くの場合、パラメータチューニングが不要データのスケール変換も不要欠点線形モデルよりも多くのメモリを消費し、訓練も予測も遅い乱数のシ…

Etsukunの日記

2019-01-01から1年間の記事一覧

2クラス分類における基準

グリッドサーチ（grid search）

シャッフル分割交差検証（shuffle-split cross-validation）

k分割交差検証（k-fold cross-validation）

モデルの評価ー訓練セットとテストセットの分割

反復選択（iterative selection）

モデルベース選択（model-based selection）

単変量統計（univariate statistics）

単変量非線形変換

多項式特徴量（polynomial feature）

交互作用特徴量（interaction feature）

ビニング（Binning)

ワンホットエンコーディング（One-hot-encoding）

特徴量エンジニアリング

正解データを用いないクラスタリングの評価

正解データを用いたクラスタリングの評価

DBSCAN（density-based spatial clustering of applications with noise）

凝集型クラスタリング（agglomerative clustering）

k-meansクラスタリング

t-SNE多様体学習

非負値行列因子分解（NMF）

主成分分析（PCA）

スケール変換の種類

教師無し学習（Unsupervised transformation）

ユークリッド距離　（Euclidean distance）

クラス分類の不確実性推定

ニューラルネットワークー多層パーセプトロン（multilayer perceptron）

カーネル法を用いたサポートベクタマシン

勾配ブースティング回帰木（勾配ブースティングマシン）

ランダムフォレスト