DATA-SCIENCE

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (4)

v.学習モデルの性能評価

 教師あり学習の際には、学習させたモデルでどの程度正しくラベルが付与されたかを数値化することが可能です。この作業をモデルの性能評価を行うと言います。分析者が最も関心がある事項は、そのモデルは未知のデータに対してどの程度の精度でラベルを付与できるか、という点です。学習させたデータは高精度でラベル付与が可能である一方で、未知のデータに対してはほとんど予測力がない状態にあることを「過学習(Over Fitting)」と言います。学習させたモデルが過学習に陥っていないかを確認する手段として、全データの80-90%程度を学習用に、残りのデータを評価用に分け、評価用データに対して「学習モデルが付与したラベルと正解ラベルが合致するか否か」を検証することが挙げられます。代表的な検証の手法としては、受信操作特性(ROC)曲線があります。

各手法を説明する前に、まずは二値ラベル(陽性および陰性)を例にして正解と不正解の場合分けを考えてみましょう。すべてのパターンは以下の表のいずれかに当てはまります。

  正解ラベル
予測ラベル 陽性 陰性
陽性 TP FP
陰性 FN TN

 
この表は混同行列(Confusion Matrix)と呼ばれます。TP等の記号は、予測ラベルが正解ラベルと一致(T)または不一致(F)で、尚かつ、予測ラベルが陽性(P)または陰性(N)のデータの個数を表します。つまり、TPは予測ラベルが陽性で正解だったデータの個数を表します。

 性能評価の際によく使用される指標として、以下のようなものがあります。

名称 定義 コメント
正解率(Accuracy)
\frac{TP+TN}{TP+FP+FN+TN}
予測ラベル全体の正答率を表す
適合率(Precision)
\frac{TP}{TP+FP}
陽性と予測したラベルの正答率を表す
再現率(Recall)
\frac{TP}{TP+FN}
正解ラベルが陽性の正答率を表す
F値
\frac{2 \times Recall \times Precision}{Recall+Preccision}
適合率と再現率の調和平均をとったもの

※調和平均は「率」を表す数値同志の平均値を正しく出すための計算です。
 
少し理解するのに時間がかかるかもしれない点に、適合率と再現率の違いがあります。例えば、ある疾病の検査薬の効果検証実験を考えてみます。適合率は、検査薬で陽性と判断された患者が実際に病気である確率を表します。一方で再現率は、病気である患者に対して検査薬が正しく陽性を示す確率を表します。「高適合率で低再現率」の検査薬とは、陽性と判断された人は高い確率で病気にかかっていますが、実際は病気である人を陰性と判断する確率も高いということです。ここまでくれば、「低適合率で高再現率」の検査薬とは、大抵の人を陽性と判断する、いい加減な薬のことだと分かると思います。

ページ: 1 2

この記事をシェアする