2クラス分類における基準

2クラス分類

陽性(Positive)・・・ターゲットとなるクラス

陰性(Negative)

 

混合行列

2クラス分類の評価結果を表現する方法で以下の4つに分類される

真陽性(True positive)・・・・正しい陽性の判断 TPとも呼ばれる

偽陽性(False positive)・・・間違った陽性の判断 FPやタイプⅠエラーとも呼ばれる

真陰性(True negative)・・・正しい陰性の判断 FNとも呼ばれる

偽陰性(False negative)・・・間違った陰性の判断 FNやタイプⅡエラーとも呼ばれる

 

評価結果の表現方法

精度(Accuracy)

テストセットに対して正しいクラス分類を行ったかの割合を表現している。

偏ったデータセットに対しては、誤った認識を行う可能性がある。

精度=(TP+TN)/ (TP + TN + FP + FN)

 

適合率(Precision)

陽性と判断されたものがどのくらい実際に陽性であったかを表現している

偽陽性の数を制限したい場合の性能基準

適合率 = TP / (TP + FP)

PPV(positive predictive value:陽性的中率)とも呼ばれる。

 

再現率(Recall)

実際に陽性であったものがどれらく陽性と判断されたかを表現している

偽陰性の数を制限したい場合の性能基準

再現率= TP / (TP + FN)

感度(Sensitivity)、ヒット率(hit rate)、真陽性率(True positive rate : TPR)とも呼ばれる。

 

F-値(f-measure)

適合率と再現率をまとめて表現している

F = 2 * (適合率 * 再現率) / (適合率 + 再現率)

 

適合率-再現率カーブ

すべての可能なスレッショルドを変動させて、適合率と再現率の軸でプロットしたもの

 

平均適合率(average precision)・・・適合率-再現率カーブの下の領域を積分した値

 

ROCカーブ(receiver operating characteristics curve)

すべての可能なスレッショルドを変動させて、偽陽性率と真陽性率の軸でプロットしたもの

AUC(area under the curve)・・・ROCカーブの下の領域を積分した値、ランダムに予測するクラス分類機で常に0.5、偏ったクラス分類問題を評価するときに良い