五千年(敝帚自珍)

主题:【原创】冤假错案的数学原理 -- 同人于野

共:💬64 🌺284
全看树展主题 · 分页首页 上页
/ 5
下页 末页
家园 老瓦说的就是虚警和误警的代价

这是冤假错案的数学原理背后隐藏的问题。老瓦厉害

江湖风传吴副总理曾对手下曰过:把你们全毙了有冤枉的,把你们隔一个枪毙一个,肯定有漏网的。这个就是不枉不纵不可能做到的最好说明

只要判案/检测就必然有冤案(虚警)也有漏网(误警),这判案的尺度抓在哪里,要看虚警和误警造成的代价大小。最近河友朱百山的走向胜利系列就有一个例子:

哨兵一听是王孩,松了警惕,又问:“你后面是什么人?”

王孩说:“是正规部队,来找区政府要粮食的。”

说着就来到哨兵面前,敌人扑上去,把哨兵和王孩捆起来,嘴塞住。区政府和区队的同志们正在睡梦中,被敌人包围了。敌人的机枪,冲锋枪,步枪对着前后门窗疯狂扫射。过后敌人蜂拥而上,冲进屋里。

区政府和区队共有四十一人,有三人因故不在队,还有三十八人。牺牲二十一人,被俘十六人,还少一人。

朱百山:【原创】走向胜利(十五)

一人叛变,牺牲二十一人、被俘十六人,可见在战争环境里误警的代价特别大,所以审查倾向于降低漏警。但付出的代价是冤杀的可能超过和平环境。最终付出的总代价是叛徒漏网的造成损失和冤杀造成的损失。

C(漏网)*P(叛徒通过审查) + C(冤杀)*P(好人未通过审查)

误警代价C(漏网)越大,为了降低总的损失、为了整个组织的生存和发展,审查的门限就越严格,付出的代价就是冤案

革命,确实不是请客吃饭,只有最坚忍的人才能走过来

家园 原理介绍得很好,不过数据编得离谱

如果你真懂概率,你会想到要使用贝叶斯定理,然后你会发现这道题还缺少一个关键信息:那就是一般人感染 HIV 的概率。现在已知一般人感染 HIV 的概率是 0.01%,也就是说一万个人中才有一个人感染这种病毒。根据以上信息,这位不幸被检测为 HIV 感染者的朋友真有 HIV 的可能性是多少呢?

万分之一的感染率太离谱了吧。地球上60亿人只有60万HIV感染者?

似乎已经超过三千万了。

点看全图

外链图片需谨慎,可能会被源头改

http://www.cdc.gov/hiv/topics/surveillance/resources/slides/2007report_tables/slides/HASR_19.pdf

家园 错误很大

开始看前两个例子还是蛮有趣的,最后那个抓特务的例子怎么看怎么觉得不对劲,完全是用统计学去生搬硬套的解释社会问题。

前两个例子能用贝叶斯定理是有条件的:已知 P(A) 和 P(B|A)。抓特务的例子,难道你知道社会中特务的比例和鉴别特务的准确率?

你的意思是鉴别特务的准确率很低,不管社会中特务的比例多大(当然不可能很大),抓特务必然是一大堆冤假错案。

“最好的办法是冒出来一个抓一个”,呵呵,等特务冒出来,损失就大了,补救都来不及。

社会问题还是用社会学的理论去解释吧。


本帖一共被 1 帖 引用 (帖内工具实现)
家园 这是sensitivity和specificity的问题

"宁可错杀一千"是追求高sensitivity。

无罪推定是追求高specificity。

家园 欣赏这样的文章

有趣味,涨知识,能启迪。

这样的文章才是西西河的特色所在。

家园 作为一个准精算师....回复一下你的话....

你的formula 还差一个关键的资料,所以无法计算出来,

那个0.5是不正确的哟~~

想算这个概率,有两种方法,一个比较理论(也就是同人于野兄的方法)

还有一个直白一点,列表

设 I 为 indicate

Ic 为 not indicate

H 为 有 HIV

Hc 为 没有 HIV

-----------------------------

I Ic

H

Hc

-----------------------------

已知 H 为 0.01%, 所以:

-----------------------------

I Ic Sub total

H 0.01%

Hc 99.99%

Sub totoal

-----------------------------

又, 现代技术检测 HIV 病毒的准确度已经到了惊人的程度。如果一个人真是 HIV 阳性,血液检测的手段有 99.9% 的准确率

换成统计符号,就是 Pr(I|H) = 99.9%, 换句话说, Pr(Ic|H)=0.1%

而我们知道 Pr(A|B)=Pr(A & B)/Pr(B)

所以 Pr(I&H)=99.9%*0.01%=0.00999%

同理, Pr(Ic & H) = 0.00001%

见下表:

-----------------------------

I Ic Sub total

H 0.0000999% 0.0000001% 0.01%

Hc 99.99%

Sub totoal

-----------------------------

用同样道理 Pr(I|Hc)

-----------------------------

I Ic Sub total

H 0.00999% 0.00001 0.01%

Hc 0.009999% 99.99%

Sub totoal 0.02% 99.98%

-------------------------------

0.00999%/0.02%=0.4995=50%

家园 按照您的方法来算....

第二种方法是按照你说的方法计算, Baysian's formula

如下:

there are Ai, i=0......n exclusive sets,

A1, A2, A3,....An

Pr(Ai|B)= Pr(B|Ai)*Pr(Ai)/(Pr(B|A1)*Pr(A1)+Pr(B|A2)*Pr(A2)+....+Pr(B|An)*Pr(An))

晕了么....呵呵,在我们这里就是:

Pr(H|I)= Pr(I|H)*Pr(H)/(Pr(I|H)*Pr(H)+Pr(I|Hc)*Pr(Hc))

家园 这个。。。

我记得概率课本上第一个有点意思的例题即是这个了,哪怕是医用概率也会上这东西吧,那个调查是不是揭示了德国的大夫不靠谱啊,嘿嘿

家园 他这万分之一是指普通人中。

  就是没干过易感的事的人群中,所以说你自认为没干过什么事,也没输过血,检测结果阳性的准确率是一半。

  他漏了下面一段:如果你处在易感人群中,这检测结果阳性的准确率就极大地提高。

家园 再查一次不就能确诊了么

第一次是阳性,再查一次不就可以确诊了么

第二次阳性确诊的概率:P(A)~=0.5,P(A|B)=(0.5x0.999)/(0.5x0.999+0.5xE-4)~=1

所以按统计学原理,只要先拉网式排查一下,再对网里的仔细甄别,不就可以基本杜绝冤假错案了么。实际上也是这么操作的吧,先拘留,完了在起诉,然后一审,上诉,二审……

你这个算出来的结果看起来很惊人,其实是假设一锤子买卖,模型建的可是有问题呀,呵呵

家园 你这个说得在理

0.01%应该是每年新感染率.

家园 楼主算法是只要特务比例低

鉴别特务准确率再高也会是冤枉多的

家园 不一定

多次检测的确可以提高检测的准确率,但要用你的概率模型来算,有个基本假设就是要两次检测是独立事件,这个假设事实上是不成立的。生物测试的误差有两方面,一方面是随机误差,这个可以通过多做几个replicates来校正;另一方面是系统误差或者说是实验偏差,就是所谓的intrinsic bias,这个是由测试技术本身所决定的。无论你做多少次检测,只要你没有改变测试技术,那些测量值都是相关的,而误差的平均就反映了这个实验偏差。所以多次确诊可能会提高检测的准确率,但提高的程度并没有你推导的那么明显。而即使改变了测试技术,两次测量值也未必是完全独立的,因为两种不同的测试技术也可能有相关性。很多所谓的不同测试技术只是在某些步骤上有所不同,而那些相似的步骤仍然存在共同的试验偏差。

家园 以前搞运动有个5%的说法

一个单位,总是有5%的坏分子,这是个指标,搞运动就是要把那些混在人民群众里的5%的坏蛋抓出来。

这就说明领导同志对于这个被噎死概率是非常精通的。在发起运动时已经给出了5%的先验概率,给之后的革命行动指引了方向。

家园 这个显然要改选啊

改选2/3,不改选1/3

全看树展主题 · 分页首页 上页
/ 5
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河