2019-01-05から1日間の記事一覧

シャッフル分割交差検証(shuffle-split cross-validation)

毎回指定したデータポイント数の訓練セットと、テストセットをデータセットから抜き出し、これを複数回繰り返す。 利点 訓練セットとテストセットのサイズとは独立して繰り返し回数を制御できる。

k分割交差検証 (k-fold cross-validation)

汎化性能を評価する統計的手法 データセットをk分割して、それぞれの分割されたデータセットをテストセットして使い、残りのデータセットを訓練セットとして利用する。 それぞれの精度を計算する。 層化k分割交差検証(stratified k-fold cross-validation)…

モデルの評価ー訓練セットとテストセットの分割

訓練セットを用いてモデルを構築し、テストセットを用いて評価する

反復 選択(iterative selection)

異なる特徴量を用いた一連のモデルを作る 反復する方法は主に以下の2種類 まったく特徴量を使わないところから、ある基準が満たされるところまで1つずつ特徴量を加えていく方法 すべての特徴量を使う状態から一つずつ特徴量を取り除いて行く方法

モデルベース選択(model-based selection)

教師あり学習モデルを用いて個々の特徴量の重要性を判断し、重要なものだけを残す手法 線形モデルの場合・・・係数の絶対値を取り、大きいものを抽出 決定木モデルの場合・・・特徴量の重要性の属性を用いて抽出 利点 すべての特徴量を同時に考慮する

単変量統計(univariate statistics)

個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する 特徴量が多すぎてモデルを作ることができないような場合や多くの特徴量が全く関係ないと思われる場合に有用 利点 計算が高速 モデルを構築する必要がない 欠点 個々の特徴量を…