评估度量标准

评估度量标准

本文主要介绍一些评估度量,用来评估分类器预测类标号的性能或“准确率”。

  • 真正例/真阳性(True Positive,TP):是指被分类正确的正样本。令TP为真正例的个数。
  • 真负例/真阴性(True Negative,TN):是指被分类正确的负样本。令TN为真负例的个数。
  • 假正例/假阳性(False Positive,FP):被错误标记为正样本的负样本。令FP为假正例的个数。
  • 假负例/假阴性(False Negative,FN):被错误标记为负样本的正样本。令FN为假负例的个数。
    所显示的混淆矩阵是针对二元分类的问题,但是容易用类似的方法给出多类问题的混淆矩阵。

准确率

分类器在给定检验集上的准确率是被该分类器正确分类的元组所占的百分比。即
$$ accuracy = \frac{TP+TN}{P+N} $$

错误率或误分率

$$ error rate = \frac{FP+FN}{P+N} $$

当考虑类不平衡问题是,其中感兴趣的类是稀少的。也就是说,数据集的分布反应负类显著地占多数,而正类占少数。对医疗数据样本进行分类,97%的准确率使得该分类器看上去相当准确,但是,如果实际只有3%的训练元组是癌症,显然,97%的准确率可能不是可接受的。需要使用其他的度量来评估正确地正元组的情况和正确地识别负元组的情况。可以分别使用灵敏性(也称真正例识别率,sensitivity)和特效性度量(真负例识别率,specificity)。
$$ sensitivity = \frac{TP}{P} $$
$$ specificity = \frac{TN}{N} $$

精度(precision)可以看做精确性的度量(即标记为正类的元组实际为正类所占的百分比)

$$ precision = \frac{TP}{TP+FP} $$

召回率(recall)是完全性的度量(即正元组标记为正的百分比)

$$ recall = \frac{TP}{TP+FN} $$

类C的精度满分1.0意味分类器标记为类C的每个元组都确实属于类C,然而对于被分类器错误分类的类C的元组数,它什么也没告诉我们。类C的召回率满分1.0意味着C的每个元组都被标记为类C,但是并未告诉我们有多少其他元组被不正确地标记属于类C。
精度与召回率之间趋向于呈现逆关系,有可能以降低一个为代价而提高另一个。
另一种使用精度和召回率的方法是把它们组合到一个度量中,这是F度量(又称为F分数)和F*度量的方法、

Donate comment here