五千年(敝帚自珍)

主题:【原创】老马丁胡侃统计之三: 关于两个错误 -- 老马丁

共:💬29 🌺89
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【原创】老马丁胡侃统计之三: 关于两个错误

上接老马丁胡侃统计之二: 生活中的几个概率统计问题

小时候听过这么一个故事,某朝某代,皇帝问宰相:“全国有几个人呀?一年又生几个呀?”该大臣虽然掌户部,但是不管户口,当场就答不出来。郁闷的回家问LD, LD说,这容易,全国有12个人,鼠牛虎兔龙蛇马羊猴鸡狗猪;一年生一个,就是那个属相动物。推比过来,我一辈子就犯两个错误,你一辈子也就犯两个错误,他一辈子也就犯两个错误,所有人一辈子就犯两个错误…

这两个错误在统计上有个挺好记但是又容易混淆的名字:一号错误和二号错误。一号错误指误真为假,二号错误指误假为真。任何不是100%确定的事情,都有可能发生这两类错误。这两个错误有什么特点呢:故总理的明言“错误是不可避免的,但是不能重犯”是老马座右铭之一,把这话改一改来形容这两个错误挺恰当的:这两个错误是不可避免的,但是你却不可能同犯。

举一个例子来说明:

花花公子老李去医院检查自己有没有患艾滋病,那么原命题是“老李没得病”。如果检测结果的正确性只是99%,即,如果老李得病,有1%的机会查不出来;如果老李没得病,也有1%的机会查不出来。这即有不确定存在。那么医生凭测试结果来判断老李是否得病,他肯定会按一定的可能性犯下面的两个错误之一:

(1) 老李的结果是阳性。但是老李确实干净。

(2) 老李的结果是阴性。但是老李是个定时炸弹

在(1)中,原命题“老李没得病”为真,医生却按测试结果误真为假,把老李判了死刑;在(2)中,原命题“老李没得病”为假,医生却按测试结果误假为真,放任老李继续祸害妇女百姓。

有人问,那么医生能不能不犯任何错误?比如说,医生能不能不凭测试结果来判断老李的病呢?这真是个好问题。

另外,一号和二号错误是相对于原命题来的。如果改变原命题,按上面的例子,原命题改为“老李有病”,上面的一号错误和二号错误要掉个。

为加深对一号和二号错误的理解,看道题先。还是接上面的条件,原命题是“老李没得病”,检测结果的正确性是99%,如果大众人群里得病的概率为1%,老李也是其中一员。请问:

如果老李查出阳性,那么他没病的概率是多少(即,医生犯一号错误的机会)?

如果老李查出阴性,那么他中招的概率又是多少(医生犯二号错误的机会)?

这道题有显著的生活应用意义。

上面提及,对一个原命题的进行分析判断都会发生这两个错误之一,但是这两个错误的后果却大不相同。接上面的例子,如果这个医生犯了一号错误,没病查出有病,那么老李肯定找另一个医生看看。独立事件的概率好算,另一个医生也犯错误的概率很低。退一万步说,这也会老李以后生活上也会检点一些,功在当代,利在千秋,对不?如果医生犯了二号错误,有病当没病,完了,老李气焰更嚣张了,以前乍玩乍没事…

各种统计测试是无法同时兼具克服两个错误的。降低一号错误发生的机会,就会增加二号错误发生的概率,反之亦然。既然错误肯定要犯,那么就定一条犯错误的原则吧。在设计测试时,通用的犯错误原则是,尽可能的降低那个后果严重的错误发生的概率。回到那个艾滋病测试的例子,为了尽可能的检测出真正的患者,那么就会让合格的标准,过关的门槛更苛刻,结果呢?有病的更会被查出来,但是更多的没病的会被当成有病。

在社会问题里面,关于一号错误和二号错误的犯错误原则被广泛的应用着。比如说,它有意无意的在指导人们的交友原则。交友这个问题同样会有两个错误:误交损友和错过好友。大多数人奉行风险回避,那么对他们而言误交损友的错误后果更严重一些,这也是为啥很多人在和陌生人交往时保守,含蓄,被动。但是另有一伙人热爱交友,知道世界上还是好人多,人间定有真情在,愿意采取主动的态度,不放过每一个交友的机会。那么对这些人来说,错过一个好友的后果更严重。这种人古代就有:宋江柴官秦叔宝。老外里更多见。河里的朋友呢,我觉得后一类不少。

把上面交友两字换成“婚恋”,又变成一个应用。老马某位知己的口头禅是对这两种错误态度的真实写照:“宁可孤寂一生,不可痛苦一世”。

法律上的应用也很广泛。美国的陪审团制度是一个具体的例子。在法庭上入某人的罪也是个测试。原命题是:某人无罪。一号错误:把无罪的某人关起来了;二号错误:把有罪的某人放跑了。美国的司法原则是宁可放跑坏人,也不可冤枉好人。很显然,美国人认为一号错误的后果更严重。在操作上如何实施的?辩方和控方互相砸砖,控方的拉人坐牢的论据要beyond all the reasonable doubts,即,入它人罪的证据必须经得起一切合理的质疑。这让辩方的工作比控方轻松,辩方只要提出一点让控方无法对付的质疑就行了。这就是无罪推定的实质。

关键词(Tags): #统计#老马丁胡侃统计#错误元宝推荐:海天,爱莲,橡树村, 通宝推:蚂蚁不爱搬家,

本帖一共被 4 帖 引用 (帖内工具实现)
家园 沙发:)

就是汽车报警器的误报率和漏报率,要是太灵敏了它老瞎叫,漏报率低。反过来就是不怎么误报,漏报的可能性比较大。:)

有趣的是测量结果一般不是100%确定的,这个和测量误差有关系吧。所以概率统计几乎无处不在。:)

家园 老马,

先花,然后觉得这里似有疑问 --- “如果检测结果的正确性只是99%,即,如果老李得病,有1%的机会查不出来。如果老李没得病,也有1%的机会查不出来,即有不确定存在。”

俺的记忆,如果正确性是99%的话,那么,那个1%的错误率是针对一种错误的,而不是两种错误假定原命题是“老李没病”,那么这个1%的错误率是说,--- 检测结果否定原命题“老李没病” (reject H-null),可实际上老李没病,这种情况发生的概率是1%。这个概率大家都知道,是 alpha.

另起一行,省得乱糊 --- 维持原命题不变 --- “老李没病”,如果检测结果是维持原命题“老李没病”,可实际上老李已经病入膏肓了,这种情况的发生概率,应该不是1%。这个概率是 beta.

alpha 与 beta 的确是负相关,即前者越大,后者越小,但并非简单线性关系,而是一个相当复杂的关系,好像与整体的大小(size of the population)和样本大小(sample size) 以及方差都有关系。具体受几个变量的影响,没有查书,可能记忆有误。

家园 exactly!

老酒说的全对。我只是为了简化那个统计题的计算,因此也定义beta为1%。beta和alpha只有一个定性的此长彼落的关系,他们是可以同时为1%的。

家园 alpha和beta的关系

是负相关如果测量选择的合理,如何相关不完全是统计样本的事情,是和测量有关的,不会有单纯从统计上推导出apha和beta的关系。测量过程对“真数据”(有病样本)和”伪数据“(无病样本)的处理需要具体分析。:)

家园 送花!交友、婚恋、法律,这些例子很形象!
家园 为啥?为啥?

老李去检查,检测结果的正确性是99%,如果大众人群里得病的概率为1%,老李也是其中一员。请问:

如果老李查出阳性,那么他没病的概率是多少?

这道关系老百姓生死的问题竟然没人回答呢?

家园 50%吧

如果老李是人群中随机的一个人,而且检查出错也是完全随机的,那应该是一半对一半,50%吧,因为1%x99%(确实有)=99%x1%(被误诊)。但是如果已知老李是个花花公子嘛。。。

家园 既然

老马丁教授把这个问题提升到关系广大老百姓生死的高度,那我就来试试。

首先我想问明白

检测结果的正确性是99%
是不是意味着:如果某人的了此病,那么检查结果有99%的概率显示他/她呈阳性?

如果答案是yes, 简单的 Bayes 就算得他没病的概率是50%。

既然
家园 对头!

人民群众放心了。原来就是个抛硬币的概率。

50%吧
家园 送花!

原来人民群众是非不能也,实不愿耳。懒得搭理这种小问题。

家园 所以老李应该再去检查

最好用不同的方法来检查。:)

家园 给您一个小小的建议

设计题目时,如果outcome有两种,概率最好不要设为1/2,特别是当文章对象是非专业读者时。

家园 为啥?为啥?

为啥?

家园 容易让人误会

把复杂的问题给想简单了

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河