2019-01-01から1年間の記事一覧

2クラス分類における基準

2クラス分類 陽性(Positive)・・・ターゲットとなるクラス 陰性(Negative) 混合行列 2クラス分類の評価結果を表現する方法で以下の4つに分類される 真陽性(True positive)・・・・正しい陽性の判断 TPとも呼ばれる 偽陽性(False positive)・・・間違っ…

グリッドサーチ(grid search)

パラメータをチューニングしてモデルの汎化性能を向上させる方法の一つ パラメータのすべての組み合わせに対して試してみる方法 単純なグリッドサーチ すべてのパラメータに対して単にループしてチューニングする方法 データセットを訓練セット、検証セット…

シャッフル分割交差検証(shuffle-split cross-validation)

毎回指定したデータポイント数の訓練セットと、テストセットをデータセットから抜き出し、これを複数回繰り返す。 利点 訓練セットとテストセットのサイズとは独立して繰り返し回数を制御できる。

k分割交差検証 (k-fold cross-validation)

汎化性能を評価する統計的手法 データセットをk分割して、それぞれの分割されたデータセットをテストセットして使い、残りのデータセットを訓練セットとして利用する。 それぞれの精度を計算する。 層化k分割交差検証(stratified k-fold cross-validation)…

モデルの評価ー訓練セットとテストセットの分割

訓練セットを用いてモデルを構築し、テストセットを用いて評価する

反復 選択(iterative selection)

異なる特徴量を用いた一連のモデルを作る 反復する方法は主に以下の2種類 まったく特徴量を使わないところから、ある基準が満たされるところまで1つずつ特徴量を加えていく方法 すべての特徴量を使う状態から一つずつ特徴量を取り除いて行く方法

モデルベース選択(model-based selection)

教師あり学習モデルを用いて個々の特徴量の重要性を判断し、重要なものだけを残す手法 線形モデルの場合・・・係数の絶対値を取り、大きいものを抽出 決定木モデルの場合・・・特徴量の重要性の属性を用いて抽出 利点 すべての特徴量を同時に考慮する

単変量統計(univariate statistics)

個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する 特徴量が多すぎてモデルを作ることができないような場合や多くの特徴量が全く関係ないと思われる場合に有用 利点 計算が高速 モデルを構築する必要がない 欠点 個々の特徴量を…

単変量非線形変換

特定の特徴量に有用であることが分かっている非線形変換 log exp sin などの数学関数をいて特徴量を変換する

多項式特徴量(polynomial feature)

特徴量表現を豊かにする方法 特徴量の多項式を新たな特徴量として利用する

交互作用特徴量(interaction feature)

特徴量表現を豊かにする方法 各特徴量の値を掛け合わせて新たな特徴量を作る

ビニング(Binning)

連続値特徴量のデータ表現の一つ 連続値の特徴量を複数のビンに分割することにより、複数の特徴量に分割する 線形モデルに関しては、柔軟になるが、決定木に関しては、柔軟性が低下する。

ワンホットエンコーディング(One-hot-encoding)

カテゴリ特徴量を表現する手法の一つ ダミー変数とも呼ばれる。 カテゴリに含まれる要素の数だけ、特徴量を増やして、それぞれ1や0にセットする。 常に追加された特徴量の内一つだけ1になるので、One-hot-encodingと呼ばれる。

特徴量エンジニアリング

特定のアプリケーションに対して、最良のデータ表現を模索すること データ表現の種類 連続値特徴量(Continuous Feature)・・・連続的に変化する カテゴリ特徴量(Discrete Feature)・・・連続的に変化しない

正解データを用いないクラスタリングの評価

シルエット係数(silhouette coefficient) 頑健性を用いたクラスタリング評価指標 良い結果が得られても、そのクラスタリングに意味があるのかはわからない。結局、目で見て解析するしかない。

正解データを用いたクラスタリングの評価

調整ランド指数(adjusted rand index:ARI) 正規化相互情報量(normalized mutual information:NMI) 最良の場合に1、関係ないクラスタリングの場合に0を取る

DBSCAN(density-based spatial clustering of applications with noise)

データポイントを3種類に区分する コアポイント・・・指定した距離以内に指定したデータ件数以上のデータポイントがあるデータポイント 境界ポイント・・・あるコアポイントに指定した距離以内に存在するデータポイント ノイズ・・・指定した距離以内に指定…

凝集型クラスタリング(agglomerative clustering)

個々のデータポイントをそれぞれ個別のクラスタとして開始し、最も類似した2つのクラスタを併合していく。何らかの終了条件が満たされるまで繰り返す。 連結方法 クラスタ内の分散の増分が最小になるように選択する クラスタ間のすべてのポイント間の距離の…

k-meansクラスタリング

データの領域を代表するようなクラスタ重心を見つけようとする。 次の2ステップを繰り返す。 個々のデータポイントを最寄りのクラスタ重心に割り当てる 個々のクラスタ重心をその点に割り当てられたデータポイントの平均に設定する 利点 比較的理解しやすい …

t-SNE多様体学習

主に可視化に用いられるため、2つの新しい特徴量を生成するのに利用される 探索的なデータ解析に有用がだ、教師あり学習にはほとんど用いられていない。

非負値行列因子分解(NMF)

有用な特徴量を抽出することを目的とする強化なし学習手法である。 係数と成分が非負であることが求められる。

主成分分析(PCA)

データセットの特徴量を相互に統計的に関連しないように回転する手法 回転した後の特徴量から、データを説明するのに重要な一部の特徴量だけを抜き出す。 欠点 軸の解釈が容易でない

スケール変換の種類

方法1 個々の特徴量の平均が0、分散が1になるように変換する 方法2 個々の特徴量の中央値が0、四分位数が1になるように変換する 方法3 最小値が0、最大値が1になるように変換する 方法4 特徴量ベクトルがユークリッド長1になるように変換する

教師無し学習(Unsupervised transformation)

データセットの変換 次元削減・・・高次元の入力を少量の本質的な特徴を表す特徴量でそのデータを表すようやく方法を見つける クラスタリング グループ分けする

ユークリッド距離 (Euclidean distance)

2点間の通常の直線距離の事

クラス分類の不確実性推定

決定関数 モデルが信じている度合いがエンコードされている 正であれば陽性クラスが、負であれば陰性クラスを意味する 決定関数はどのようなスケールで表示されるかわからないので、解釈が難しい 確率の予測 それぞれのクラスに属する確率を予測する 決定関…

ニューラルネットワークー多層パーセプトロン(multilayer perceptron)

それぞれの入力値に重み付きの係数をかけ和を計算し、非線形関数を適用し、隠れユニットの入力値とする 非線形関数にはRelu(Rectified Linear Unit)やtanh(Hyperbolic tangent)が用いられる。 利点 複雑なモデルを構築できる 欠点 訓練に時間がかかる デ…

カーネル法を用いたサポートベクタマシン

より複雑なモデルを可能にするために線形サポートベクタマシンを拡張したもの サポートベクタ・・・2つのクラスの境界に位置するごく一部の訓練データポイントだけが決定境界を決定する。これらのデータポイントのこと カーネルトリック・・・拡張された特徴…

勾配ブースティング回帰木(勾配ブースティングマシン)

1つ前の決定木の誤りを次の決定木で訂正するようにして、決定木を順番に作っていく 利点 ランダムフォレストに比べると性能がいい 特徴量のスケール変換が不要 欠点 パラメータのチューニングに最新の注意が必要 訓練にかかる時間が長い パラメータ 事前枝刈…

ランダムフォレスト

少しづつ異なる決定木をたくさん集めたもの 過剰適合の度合いを減らすことができる。 利点 非常に強力である 多くの場合、パラメータチューニングが不要 データのスケール変換も不要 欠点 線形モデルよりも多くのメモリを消費し、訓練も予測も遅い 乱数のシ…