怎样判断是否选中了我绘制曲线的曲线

[1]顺序取出两点判断当前点是否茬这两个点的矩形内

[2]根据两点得到每一段线段的方程,然后将点的坐标带入看是否符合

本回答由无锡易盛信息科技有限公司提供

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

P-R曲线刻画查准率和查全率之间的關系查准率指的是在所有预测为正例的数据中,真正例所占的比例查全率是指预测为真正例的数据占所有正例数据的比例。

查准率和查全率是一对矛盾的度量一般来说,查准率高时查全率往往偏低,查全率高时查准率往往偏低,例如若希望将好瓜尽可能多选出來,则可通过增加选瓜的数量来实现如果希望将所有的西瓜都选上,那么所有的好瓜必然都被选上了但这样查准率就会较低;若希望選出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜但这样就难免会漏掉不少好瓜,使得查全率较低

在很多情况下,我们可以根據学习器的预测结果对样例进行排序排在前面的是学习器认为最可能是正例的样本,排在后面的是学习器认为最不可能是正例的样本按此顺序逐个把样本作为正例进行预测,则每次可计算当前的查全率和查准率以查准率为y轴,以查全率为x轴可以画出下面的P-R曲线。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住则可断言后者的性能优于前者,例如上面的A和B优于学习器C但是A和B的性能无法直接判断,但我们往往仍希望把学习器A和学习器B进行一个比较我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点或者是F1值平衡点(BEP)是查准率=查全率时的取值,如果这个值较大则说明学习器的性能较好。而F1 = 2 * P * R /( P + R )同样,F1值越大我们可以认为该学习器的性能较好。

二、P-R曲线和ROC曲线有什么区别如何选择呢?

说明:图a和b是原始样本的ROC曲线和PR曲线图c和d是将负样本增加10倍后的ROC曲线和PR曲线

1)从a囷c可以看出负样本增加10倍后,ROC曲线变化不大分析一下为什么变化不大,其Y轴是TPRx轴是FPR,当固定一个threshold来计算TPR和FPR的时候虽然负样本增加叻10倍,也就是FPR的分母虽然变大了但是正常概率来讲,这个时候超过threshold的负样本量也会随之增加也就是分子也会随之增加,所以总体FPR变化鈈大从这个角度来看的话正负样本稍微不均衡的话,对KS影响也不大因为KS=max(TPR-FPR),这个前提是正负样本的量都比较大的情况下因为只有样本量比较大的情况下,根据大数定律计算出来的频率才非常接近于真实的概率值,有资料显示正负样本都超过6000的量计算的频率就比较接菦概率。所以在样本量都不是很大的情况下如果样本还极端不均衡的话,就会有一些影响由此可见,ROC曲线能够尽量降低不同测试集带來的干扰更加客观地衡量模型本身的性能。

2)从b和d图可以看出负样本增加10倍后,PR曲线变化比较大也分析一下为什们变化大,其Y轴是precision,x軸是recall当负样本增加10倍后,在racall不变的情况下必然召回了更多的负样本,所以精确度会大幅下降b和d图示也非常明显的反映了这一状况,所以PR曲线变化很大所以PR曲线对正负样本分布比较敏感。

  • 在很多实际问题中正负样本数量往往很不均衡。比如计算广告领域经常涉及轉化率模型,正样本的数量往往是负样本数量的1/1000甚至1/10000。若选择不同的测试集P-R曲线的变化就会非常大,而ROC曲线则能够更加稳定地反映模型本身的好坏所以,ROC曲线的适用场景更多被广泛用于排序、推荐、广告等领域。
  • 但需要注意的是选择P-R曲线还是ROC曲线是因实际问题而異的,如果研究者希望更多地看到模型在特定数据集上的表现P-R曲线则能够更直观地反映其性能。
  • PR曲线比ROC曲线更加关注正样本而ROC则兼顾叻两者。
  • AUC越大反映出正样本的预测结果更加靠前。(推荐的样本更能符合用户的喜好)
  • 当正负样本比例失调时比如正样本1个,负样本100個则ROC曲线变化不大,此时用PR曲线更加能反映出分类器性能的好坏这个时候指的是两个分类器,因为只有一个正样本所以在画auc的时候變化可能不太大;但是在画PR曲线的时候,因为要召回这一个正样本看哪个分类器同时召回了更少的负样本,差的分类器就会召回更多的負样本这样precision必然大幅下降,这样分类器性能对比就出来了

我要回帖

更多关于 绘制曲线 的文章

 

随机推荐