単変量統計(univariate statistics)

個々の特徴量とターゲットとの間に統計的に顕著な関係があるかどうかを計算する

特徴量が多すぎてモデルを作ることができないような場合や多くの特徴量が全く関係ないと思われる場合に有用

 

利点

計算が高速

モデルを構築する必要がない

 

欠点

個々の特徴量を個別に考慮するので、他の特徴料との組み合わせで意味を持つような特徴量は捨てられる。

ビニング(Binning)

連続値特徴量のデータ表現の一つ

連続値の特徴量を複数のビンに分割することにより、複数の特徴量に分割する

 

線形モデルに関しては、柔軟になるが、決定木に関しては、柔軟性が低下する。

ワンホットエンコーディング(One-hot-encoding)

カテゴリ特徴量を表現する手法の一つ

ダミー変数とも呼ばれる。

 

カテゴリに含まれる要素の数だけ、特徴量を増やして、それぞれ1や0にセットする。

常に追加された特徴量の内一つだけ1になるので、One-hot-encodingと呼ばれる。

特徴量エンジニアリング

特定のアプリケーションに対して、最良のデータ表現を模索すること

 

データ表現の種類

連続値特徴量(Continuous Feature)・・・連続的に変化する

カテゴリ特徴量(Discrete Feature)・・・連続的に変化しない