理解查全率(precision)与查准率(recall)

理解查全率(precision)与查准率(recall)

理解查全率与查准率

1. 概念解读2.

F

1

F_1

F1​度量3.

F

β

F_\beta

Fβ​度量

1. 概念解读

在一个二分类问题中,非对既是错

真实情况\预测情况positivenegativeTrueTPTNFalseFPFN

Notice: 上面的图表是个反例,错误的原因是T\F的使用,T代表着预测正确,F代表着预测错误。

真实情况\预测情况positivenegativeTrueTPFNFalseFPTN

查全率

precison

=

T

P

T

P

+

F

N

\textrm{precison}=\frac{\mathrm{TP}}{TP+FN}

precison=TP+FNTP​查准率

recall

=

T

P

T

P

+

F

P

\textrm{recall}=\frac{\mathrm{TP}}{TP+FP}

recall=TP+FPTP​

查准率(Precision)就是你认为是对的样例中,到底有多少真是对的。 查全率(Recall)就是所有对的样例,你找出了多少,或者说你判断对了多少。

tip: 我在刚刚接触到这两个概念的时候总是傻傻分不清楚,这里记录一下我现在的看法。如上图数据,横着看表示数据集的正负分布,正集:

TP

FN

\textrm{TP}\cup\textrm{FN}

TP∪FN; 负集:

FP

TN

\textrm{FP}\cup\textrm{TN}

FP∪TN。首先查全率和查准率的分子都是

TP

\textrm{TP}

TP,表示所有猜对的正集,查准率针对的是预测集中认为是对的样例,分母是

T

P

+

F

P

TP+FP

TP+FP;查全率针对的是所有正确的样例,分母是

T

P

+

F

N

TP+FN

TP+FN。

这里有一个问题: :查准率和查全率是一对矛盾的度量。一般来说查准率高时,查全率往往偏低;反之同理。 可是为什么就不能两个都高呢? 引用西瓜书上面的回答:

若希望将好瓜尽可能多的选出来,则可通过增加选瓜的数量来实现,如果将所有的西瓜都选上,那么所有的好瓜也必然都被选上了,但这样查准率就会较低,通常只有简单的问题,才会使查全率和查准率都很高。

2.

F

1

F_1

F1​度量

F

1

F_1

F1​度量是基于查全率与查准率的调和平均(harmonic mean)。 定义为:

1

F

1

=

1

2

(

1

P

+

1

R

)

\frac{1}{F_1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})

F1​1​=21​(P1​+R1​)

F

1

=

2

×

P

×

R

P

+

R

=

2

×

T

P

2

×

T

P

+

F

P

+

F

N

F_1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{2\times TP+FP+FN}

F1​=P+R2×P×R​=2×TP+FP+FN2×TP​

3.

F

β

F_\beta

Fβ​度量

F

β

F_\beta

Fβ​是加权调和平均,是F1度量的一般形式。

1

F

β

=

1

1

+

β

2

(

1

P

+

β

2

R

)

\frac{1}{F_\beta}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R})

Fβ​1​=1+β21​(P1​+Rβ2​)

相关推荐