主题:Chris Whitty:筛查什么时候有用? -- 万年看客
https://www.youtube.com/watch?v=VQjo3Eh1nes
晚上好。今晚我想讨论一下公共卫生领域最强大的工具之一,但也是最经常遭受误解的工具之一,这就是筛查。我的问题是:筛查什么时候有用,什么时候没用?
自古以来,医疗行为就可以大致分为两类,分别是治疗性医疗与预防性医疗。这两种医疗活动的存在都贯穿了整个医疗史。治疗性医疗的基础是病人主动找上医生呈现症状,医生作出诊断并且开具疗法。另一方面,长久以来医生也会提前建议病人锻炼身体,改善饮食,控制饮酒等等。很多此类建议依然是当今公共卫生领域的常见做法。画面上的配图是著名的意大利萨莱诺医学院。这所院校集中了此前散布于欧洲各地的希腊与罗马时期医学知识,还整合了源自犹太教与伊斯兰教文明的医学知识。早在那时甚至还要更早,医学领域就分成了治疗与预防两大流派。筛查既不属于治疗也不属于预防,而是位于两者之间。筛查的目的要么是找出患病风险特别高的群体,要么是找出患病初期尚未出现症状的群体。筛查的目的不是向广大公众提出保健建议,也不是根据症状进行诊断,而是将尚未出现症状的病人或者潜在病人挑出来。
这样做的目的显而易见。以癌症为例,一切癌症只要得到早期诊断都能极大改善病情展望,包括乳腺癌、前列腺癌、肺癌与大肠癌——这四种癌症是英国癌症致死人数的前四名——以及其他多种癌症。有些遗传疾病也适用筛查。此外还有高胆固醇或者高血压之类日后可能导致疾病的风险因素,如果尽早处理也能带来远远更好的结果。画面上的插图显示了乳腺癌病人的年生存率。如果在初期就得到诊断,病人的十年生存率也依然高于90%。甚至即便在前期才得到诊断,病人的十年生存率依然高于70%。但是如果在中后期才得到诊断,那就必须采取高强度疗法,其中许多都会让病人感到严重不适,至于十年生存率则只有10%左右……
如果我们审视一下刚才提到的四种癌症,看一下它们的五年生存率与诊断阶段之间的关系。一期诊断可以将癌症扼杀在萌芽状态,二三四期则病情越发严重。一期诊断的总体生存率高于50%。绝大多数乳腺癌、前列腺癌与大肠癌患者只要能在一二期得到诊断,甚至哪怕到了第三期才得到诊断,都能享有相当高的中长期生存率。但是一旦拖到第四期,生存率就非常难看了。所以早期诊断癌症才如此重要。只要尽早诊断,就能尽早介入并且预防。心脏病与中风也是类似情况,如果我们尽早发现某人发病风险较大并且着手治疗风险因素例如降低胆固醇,那就能显著延后实际发病时间,在理想状况下甚至可以无限期延后。
但是另一方面,并非所有疾病都适用筛查。这也是本次讲座剩余时间主要关注的内容。我们要谈一下为什么在当前科技水平下有些疾病不适宜采用筛查来应对。还是以上述四种癌症为例,尽管病人全都受益于尽早诊断,但是受益程度却有所不同。目前英国确实存在针对乳腺癌与大肠癌的筛查项目,而且这些项目无疑确实拯救了人命。至于前列腺癌与肺癌,目前英国则并不存在筛查项目。接下来我还要谈一下这其中的技术原因,尤其是前列腺癌。所以尽管早期诊断确实很重要,尽管尽早确定风险因素确实很重要,但是筛查却并不适用于所有符合这两点的疾病。基于我们目前的技术水平,筛查对于大多数重病来说都不是个好主意。换言之,筛查仅仅能够帮助少数人。
筛查有助于改善病情的疾病属于特例。首先,这些疾病必须属于重病。针对轻症的筛查只会让人白白担心。其次,诊断疾病的手段必须安全可靠。目前很多疾病只有在出现明显症状之后才能做到安全可靠的诊断,但是如果针对无症状人群进行诊断,安全性与可靠性都会大打折扣。所以筛查的前提是必须具有可靠的诊断手段。此外有些诊断检测很不舒服甚至危险,也不适宜用来普遍筛查。第三,我们必须能够有效且安全地预防或者治疗筛查出来的早期疾病。这里的安全指的是与疾病本身的风险相比较而言。假如当真是不治之症,诊断早晚其实并无所谓,因为我们横竖无法提前干预,也无法改善病人处境。第四,作为筛查目标的疾病必须足够常见。假设某种罕见病每三千万人只会出现一例,那么在英国针对这种疾病进行筛查就没有意义,因为就算在绝对理想的条件下也只能找出两位病人。只有发病率足够高的疾病才用得着筛查。最后,疾病从最初出现可检测迹象开始的发病周期必须足够长,这样我们才来得及干预。假如从发病到病重只有几天时间,那么显然筛查恐怕没什么用处。反之,从出现迹象到发病的时间越长,我们干预病情的余地就越大,筛查也就越有用。许多疾病都无法满足上述五条标准当中的某一条或者几条。
我们首先来看看诊断阶段。筛查体系采用的检测手段面临着一个实际问题——诊断其实也要应对同样的问题,不过诊断至少有实际症状的支持——也就是假阳性与假阴性。几乎任何诊断检测都会出现假阳性与假阴性结果,问题在于这样的结果会有多少。假设有一群人接受筛查,其中有人得病也有人没病。完美的检测应当挑出所有病人并将他们标注为阳性,而不会将任何非病人标注为阳性,换言之所有被标注为阴性的受试者都是非病人。但是在现实当中一切检测都有误差,有一定可能将非病人标注为阳性既假阳性,或者将病人标注为阴性既假阴性。假阳性与假阴性的数量一旦太多,就会导致严重问题。假阳性意味着没病的人们会接受不必要的治疗,假阴性则意味着病人得到了虚假的保证。
诊断性检测需要考虑两点,首先是检测本身的性质,既检测或者筛查工具的灵敏度与特异度。灵敏度既真阳性结果占全部阳性结果的比例。大家经常接触的检测手段——例如心电图检测——大都有假阳性率。比方说局部缺血性心脏病——病因是心血管收窄,主要症状是胸痛——的心电图检测灵敏度就只有50%。因此如果只依靠心电图来检测局部缺血性心脏病,就会漏掉一大部分病人。反之,特异度指的则是真阴性结果站全部阴性结果的比例。比方说用核磁共振检测多发性硬化症的特异度有80%,换言之在所有被核磁共振确诊为多发性硬化症的受检测者当中有20%的人并没得病。这同样很值得担心。
一切检测手段都有各自的灵敏度与特异度,两方面都能达到百分之百的检测少之又少。当然,也有些检测手段极为准确,前提是使用得法并且选准时间。比方说孕检如今已极其可靠了。只要检测者等得时间足够长,阳性结果肯定意味着怀孕,阴性结果肯定意味着没怀孕。当代艾滋病检测也是如此。在实验室里做出的艾滋病阳性检测结果同样极其可靠,尽管一般来说总会重复检测一遍以防万一。反之,只要在合适的时间点进行,阴性结果也肯定能排除受检测者感染艾滋病的可能性。这两种检测只要恰当进行,灵敏度与特异度都能逼近百分之百。但是绝大多数检测都没这么可靠。而且绝大多数检测都要在灵敏度与特异度之间做出取舍,灵敏度越高的检测往往特异度越低,反之亦然。因此在进行筛查之前必须确定哪个方面更加重要,是不放过一个真病人还是不误诊一个假病人。两者的重要性会随着疾病的不同而变化,取决于具体临床情况。有些疾病我们只想确定病人确实没得病,也有些疾病我们不想放过哪怕只有一起病例。比方说筛查糖尿病的标准做法,在座各位或许有人接触过,既HbA1c检测。这是目前标准的糖尿病筛查工具。假设分界值为6.3%,灵敏度80%。特异度82%,那么我们将会漏诊20%的糖尿病患者,误诊18%的非患者。假如提高分界值至6.5%,则灵敏度下降且特异度上升。前者降至63%,将会漏诊高达37%的患者;后者提升至97%,只会误诊3%的非患者。你尽管可以调整检测标准,但是灵敏度的上升往往伴随着特异度的下降。
此外还有另一个比较反直觉的因素也会影响检测,既先验概率——换言之,正在接受筛查的特定个人患有目标疾病的概率有多大。这一点之所以重要,多亏了汤布里奇威尔斯的托马斯.贝叶斯牧师。他提出的贝叶斯定理在数学层面上证明了“提出傻问题只能得到傻答案”这句话。假设我检测局部缺血性心脏病既心血管堵塞,受检测人群是二十来岁的长跑运动员,那么检测得出的阳性几乎一定是假阳性。我问了一个愚蠢的问题,自然很有可能得到愚蠢的答案。因此在筛查时必须考虑到被筛查群体的患病概率。下面我要展示一幅数学图片,只有一幅,但是非常重要。看懂这张图就能理解为什么有这么多疾病都不适用筛查。
我们姑且随便假设一种疾病,针对这种疾病的检测灵敏度为90%,特异度也是90%。换言之全部阳性结果当中有90%是真阳性,全部阴性结果当中也有90%是真阴性。以医学标准而言这种检测方法已经算是相当可靠了。但是我们要思考的关键不仅局限于灵敏度与特异度——这项检测在这两方面都做得很好——还要考虑阳性预测值与阴性预测值。前者指的是某一位个人得到阳性结果之后该结果为真阳性的概率,后者指的是此人得到阴性结果后该结果为真阴性的概率。画面上是两棵概率树,左边的概率树代表患病率1%的1000人,换言之这1000人当中有10个真阳性,990个真阴性。这10个人不是能够检测出来的阳性人数,而是确实的患病人数。略微一算就可得知,这10个患病者当中有9个人检测结果会呈真阳性,1个呈假阴性。但是还有剩下的990人,而且检测的特异度是90%,因此这其中会有891人呈真阴性,此外还有99人呈假阳性。这样一来最后的检测阳性群体就包括99个假阳性加上9个真阳性。尽管检测本身很可靠,但是假阳性还是要比真阳性多得多,于是检测的阳性预测值就是9个真阳性与108名阳性检测结果的比率,或者说8%。不过阴性预测值却要远远高得多,达到了1/892,或者说高于99%。
接下来我们看右边的概率树,还是利用同一套方法来检测同一种疾病,但是受测试人群的患病率是10%。换言之1000名受试者当中有100人患病,900人未患病。90%的灵敏度意味着100名患病者当中有90人呈真阳性,10人呈假阴性;90%的特异度意味900名非患者当中有810人呈真阴性,90人呈假阳性。在这种情况下,其他条件全都不变,真阳性与假阳性却持平了,于是阳性预测值就上升到了50%,而阴性预测值依然约等于99%或者说等于10/820。
就左手边来说,筛查阳性结果当中的真病人仅占8%;在右手边,同样的测试面对患病概率更高的群体,真病人就占到了阳性结果的一半。我这里说得有些琐碎,对于没耐心思考数学的听众们来说只需记住以下这一点:就算检测方法很可靠,如果受测试人群患病率很低,那么也会产生压倒性多数的假阳性结果。因此检测性质与人口患病概率都很重要。
这一点之所以重要,是因为所有的治疗与一部分诊断手段都会伤害人体。治疗性医疗以及筛查的要点在于权衡治疗干预的风险与不做治疗的风险。在很多情况下,有所作为的风险其实反而大于无所作为,因为医疗有风险。在极端情况下,病人不做手术一定会死,死于手术的可能性也有50%,不过还是做手术更好。筛查则位于另一个极端:筛查危害人体的可能性通常非常小,但是受检测者实际患病的可能性一般也很小。权衡利弊是医疗的常态。假如你因为假阳性结果而治疗了一个不需要治疗的人,那么这些人就仅仅承担了治疗的风险而得不到收益,因为他们一开始就没病。换言之假阳性的潜在危害非常大。比方说中风的一大已知风险因素是颈动脉狭窄。我们可以手术切除收窄部位,也可以插入血管支架。假如中风风险很高,这样做完全合理。但是手术本身也有风险。因此我们并不想利用筛查找出一大群其实没有风险的人,然后让他们平白挨刀,因为手术同样有可能引发本来完全可以避免的中风。所以我们进行筛查的前提从来都是干预的好处大于坏处。
除了直接伤害之外,还要考虑到心理伤害。假阳性检测在伤害最轻的情况下也会让一个原本健康快乐的人沦为需要跟进的案例,使其陷入严重焦虑。更糟糕的情况下还会导致过度治疗,因为一旦某种疾病得到诊断,人们自然想要将其彻底治好。假如是传染病的话,假阳性检测还会令受测试者背负耻辱。因此除非整个检测过程到头来确实能带来收益,否则最好不要轻易进行筛查,以免造成大量假阳性病例。
检测手段的不完美意味着筛查对抗疾病的效用并非静态。检测手段总在不断进步,灵敏度、特异度与安全性都在不断提高。与此同时治疗手段的有效性与安全性也在提升。假设某种疗法几乎没有副作用,那么治疗几个假阳性也没什么大不了的,因为通过治疗获益的人远远更多。假如疗法的风险很大,那么筛查的时候就要加倍小心假阳性的存在。此外,疾病的流行病学定位也会变化。有些疾病变得越发常见,因此同一套检测方法的预测值会不断提高。也有些疾病会变得没那么常见。
接下来在确定是否应该进行筛查时还要考虑哲学问题。比方说是否应该通过筛查找出尚未出现症状的老年痴呆症患者?这确实是个很难回答的哲学问题。假设我们有了检测老年痴呆症的完美手段,但是目前还没有治疗方法,那么人们究竟想不想知道自己将来患上老年痴呆症的可能性?目前我们还没有可靠手段来检测老年痴呆症,但是就算有的话,或许也依然有人不愿接受检测,除非同时也存在治疗方法。这样的话我们就可以对他说:“你确实有可能患上老年痴呆症,但是我们可以及早干预,从而降低你发病的可能性。”
总而言之,筛查会带来许多问题,包括灵敏度与特异度问题,有效性与安全性问题,流行病学问题,以及哲学与社会学问题。这些都是采用筛查时的前提原则。至于我们现在确实正在采用的筛查,核心理念在于风险分层。由于我们必须避免对于患病概率很低的人群进行筛查,除非具有完美检测手段,而这种检测又很稀少,因此必须将患病风险较高的人群首先挑出来。今后我们肯定还会有更好的挑选方法,但是目前我们主要依靠年龄,然后是性别,有些情况下还要考虑到族裔以及许多其他因素。比方说,六十岁的女性肯定比三十岁的女性面临更高的乳腺癌风险,因此更有必要接受筛查。另一方面,尽管男性患乳腺癌的病例并不是没有,但是六十岁的男性肯定不像六十岁的女性那样需要乳腺癌筛查。目前我们还要依靠年龄与性别这样相对粗糙的标准进行风险分层。
一旦我们开始思考避免误诊与过度治疗的理由,就会发现适用筛查的疾病种类其实相对而言并不算多。画面上显示了目前英国推行的全国性筛查项目,接下来我要特别分析一下针对成年人的项目。有些筛查是产前筛查,旨在甄别严重胎儿异常,例如唐氏症。当然这些筛查的前提是父母自愿接受。也有些筛查在产后进行,旨在甄选基因异常。早期治疗往往可以减弱甚至彻底制止终生发病。至于面向英国成年人的筛查则是我接下来想要详细讨论的话题。我们也会针对高危人群而不是全体人口进行定向筛查。最后我们还有普通科体检,虽然也经常被称作筛查,但是目的略有不同。接下来我想用来阐释筛查机制的例子针对得都是成年人疾病。
对于成年人疾病来说,我们常说筛查能预防疾病,但是实际上筛查的作用是尽早诊断疾病并且制止其继续恶化。以癌症为例,制止恶化的手段就是尽早开刀切除癌变组织。目前英国针对成年人疾病的筛查主要有四种,分别是面向年轻女性的宫颈癌筛查、面向中年女性的乳腺癌筛查、面向男女的大肠癌筛查以及动脉瘤筛查。我们首先来看看宫颈癌筛查。这是一项极其有效的筛查项目。宫颈癌是年轻女性群体当中最常见的癌症,25岁到49岁的英国女性每三年接受一次筛查,50岁到64岁的女性每五年接受一次,这就是目前的情况。这种筛查特别集中在女性人生的早期,因为绝大多数女性都会在人生早期接触到宫颈癌的风险因素。宫颈癌由HPV病毒引发,感染后会潜伏一段时间,使得细胞进入初癌状态。不加治疗的话,这些细胞日后很可能真正癌变。英国自1988年起推行了宫颈癌筛查,致使宫颈癌病例显著减少。根据国家统计局的估算,大约下降了30%到40%。现在我们采取了改良后的检测手段,提升了准确性,有望带来更好的结果。宫颈癌之所以得到了预防,是因为我们尽早发现了初癌细胞并且进行干预,杀死了这些细胞。这样的治疗只攻一点不及全身,足以确保宫颈癌不会发作。与大多数癌症不同,HPV病毒的危险性会随着年龄增长而下降,而且初癌阶段很容易检测。这一切都是采取筛查的完美条件。之前的检测方法是观察宫颈抹片上的细胞形态是否异常,假如细胞形态异常,医院就会叫回受测试女性接受进一步的预防性治疗。
这个筛查项目有哪些优势?如果一名女性能在细胞癌变之前就得到早期诊断,那么只需非常简单的小手术就能解决问题,手术耗时至多只有几分钟,然后就能杜绝癌变的可能——一旦癌变的话就必须动大手术不可,最糟糕的情况下还会导致病人死亡。采用灵敏度最高的检测手段来甄选刚刚显现出癌变苗头的细胞,可以让我们更早进行干预,所需手段的强度也更低。这样做的坏处在于假阳性会增多,因为很多初癌细胞都会随着时间推移恢复常态。这样一来难免一丁点过度治疗。但是好在这点过度治疗强度也很低,基本上无害。如果你一定要等到细胞确定无疑的癌变之后再干预,仅仅依靠小手术就能解决问题的病人数量将会减少,当真患上癌症的病人将会增多,这些病人很可能病重乃至病死。所以我们情愿接受一点过度治疗作为代价,利用小手术来预防日后的致命大病。
在宫颈癌的例子当中,检测手段与流行病学都在变化。英国的HPV病毒有两大主要毒株,当前合计导致了50%到70%的宫颈癌病例。不过我们也有广泛使用的HPV疫苗,如果在青春期女性性活跃之前就注射,有效性能够达到95%。目前英国少女的接种率约为89%,这样的接种率大约能将未来的宫颈癌发病率降低一半还多。我们还在研发针对更多致癌病毒的新疫苗以扩大保护范围。换言之,就算我们除了疫苗接种以外什么都不做,未来的宫颈癌发病率也会降低,因为我们将会逐渐摆脱病毒。这样一来,或许筛查的力度也可以减弱,而降低发病概率的效果却依然显著。不仅流行病学正在变化,检测手段也在变化。如今我们正在改用DNA检测来鉴定HPV病毒,这一来过度治疗也能得到控制。总而言之,宫颈癌领域的医学发展正走在正确的道路上。我们掌握着有效的筛查项目、有效的疫苗与不断改善的检测手段。这些都是医疗领域的好消息。目前英国的宫颈癌筛查覆盖率总体而言还算理想,但是全国各地的地区覆盖率依然高低有别。这个问题在伦敦尤其显著。而且自从2011年以来的过去十年间,全国各地的筛查覆盖率一直在走低。我在这里强烈建议任何适龄女性接受筛查,因为实践已经证明了这样做确实能降低人群在未来多年内患癌的机会。
第二个需要考虑的项目是乳腺癌筛查。目前英国每年约有11000名乳腺癌患者死亡案例与将近55000起病例。至于十年生存率已经有了显著进步,二十世纪七十年代大约是40%,如今已经逼近了80%。乳腺癌的发病高峰年龄段比宫颈癌更晚,筛查采用的检测手段是乳房摄影术,受检测者在50岁到70岁之间每三年应当接受一次低剂量X光胸部照射。这项筛查的最大好处同样是诊断早期癌症,而风险显然也是一定程度的过度治疗与虚惊。但是由于乳腺癌非常常见,而且治疗初期乳腺癌要比晚期乳腺癌容易得多,利用筛查早做诊断总体而言还是能带来显著收益。目前在英国,每一千名接受筛查的女性当中大约会有八人确诊。就乳腺癌而言,不同的检测手段确实会导致不同的结果,从而影响筛查的效用。低剂量X光乳房摄影术尽管是技术水平相对较低的检测手段,但也是我们目前具有的最佳检测手段。相比之下核磁共振成像技术确实更加先进,灵敏度确实更高,但是假如用在筛查项目里也会产生更多的假阳性结果,导致更多不必要的诊疗流程。当然,核磁共振更适宜某些特定的受测试者,例如胸部组织特别致密的女性或者青年女性。但是总体而言低科技手段在这里才是最有用的手段。此外超声波成像也很有用,因为可以确定可疑区域,以便进行进一步的活组织检查。
以下是针对40岁到70岁群体的乳腺癌筛查结果的整合分析数据。从确诊时算起13年内,筛查降低乳腺癌死亡率的相对危险度在英国是0.8,在加拿大是0.82。换言之可以较为可靠地认为,接受筛查的乳腺癌患者的死亡率从比起未接受筛查的患者低了20%。鉴于乳腺癌属于常见癌症,20%的死亡率下降确实十分显著。从实践层面来说,每一万名五十岁以上女性接受为期二十年的筛查,就可以预防43人死于乳腺癌。当然一定程度的过度治疗也在所难免,约有129人会被误诊,好在涉及的疗法强度并不大。总体来说,筛查确实能显著改善乳腺癌的发病情况。
我们现在的问题在于是否应该扩展乳腺癌筛查的年龄范围。扩展方式有两种,可以提高上限,也可以降低下限。我们正在研究这两种做法能否进一步降低死亡率,同时又不至于显著提升误诊人数。我们希望避免误诊人数提升而死亡率并未显著下降的情况。此外还有人正在研究是否应当针对高风险人群加强筛检。这里的高风险指的是一位女性有患过乳腺癌的直接亲属——姐妹、母亲或者女儿——而且这位亲属的发病年龄小于40岁,或者她的两侧乳房均有癌变且发病年龄小于50岁。观察性研究表明我们确实应当针对这些女性加强筛查。研究表明,如果某人有年轻时就患上乳腺癌的家族病史,那么最好比一般人群提前接受密度更大的筛查。这就是风险分层的实例。
不同国家的乳腺癌筛查覆盖率差异显著。与宫颈癌筛查不同,乳腺癌筛查的覆盖率多年以来在英国始终大致保持恒定,约为75%左右。这个数组高于某些国家,当然也低于另一些国家,例如芬兰的覆盖率就最高,其次是荷兰,美国也不低,在这些国家覆盖率大致也都还算稳定。
第三种癌症是大肠癌,这当然是一种男女共患癌症。早期诊断同样能带来良好结果。画面左边是在不同阶段得到诊断的大肠癌五年生存率,可见哪怕直到三期才得到诊断,大多数人的五年生存率依然相当不错。但是如果拖到第四期才得到诊断就不行了。因此尽早诊断至关重要。大肠癌筛查采用的检测手段有很多。首先是肠镜,既用内窥镜观察无症状受试者的肠道内部。目前在英国肠镜检测主要面向55岁以上的群体;另一种检测手段是FOB或者说大便隐血检测,60岁以上群体每两年要进行三次。人们也可以自己在家采集样便并且邮寄到医院进行检测。目前我们正在推行更灵敏的FIT测试,两年期间只需要一份样便而不是三份。医院会将检测器具邮寄到户,只有在FIT检测呈阳性的前提下,医院才会进行进一步的肠镜检测。换句话说,FIT检测呈阳性之后才会依靠更严格的肠镜检测来确定是否存在癌症。假如肠镜筛查结果同样呈阳性,那就可以尽早处理初期疾病。只需做一个小手术,就能让原本将会患上大肠癌的人返回正常生活当中。我强烈建议不分男女的所有人只要具有潜在风险就要接受筛查检测。如果收到了邮寄上门的检测器具,请一定使用。
就大肠癌而言,我们已经进行了好几次大型实验,一切实验结果都证明就算采用灵敏度较低的检测手段——也就是FOB检测——依然在英国显著降低了大肠癌死亡人数。在英国,接受检测的人群与未接受检测人群相比,死于结肠癌与直肠癌的可能性下降了13%。因此筛查有用不仅是理论,而且已经收到了实效。受试者随机被分为接受与不接受筛查两组,前一组的结果显然好得多。肠镜检测也做过类似实验,筛查组的受试者会在55岁那年接受一次肠镜检测。接下来长达十七年的跟踪研究表明,癌症发病率下降了27%,死亡率下降了30%。这一结果显然证明筛查可以在长期范围内降低人们死于大肠癌的机会。尽管一开始看不出区别,但是十几年后区别就显示出来了。
上述研究都表明筛查可以救命。但是也有很多疾病并非如此,哪怕你以为筛查应该有用。这方面的例子我只举一个,也就是前列腺癌。前列腺癌是英国男性当中最常见的癌症,而且也存在针对前列腺癌的筛查,检测手段是通过验血寻找前列腺特异抗原的存在,简称PSA。这种检测手段的灵敏度与特异度都很不错,但是任意分组后的对照试验却表明,接受筛查检测并不能改善死亡率。在实际操作当中,PSA会产生大量阳性结果,这些受测试者假如愿意的话,接下来要接受很有些不舒服的前列腺活检。只有在活检同样呈阳性的前提下才有必要进一步接受治疗。但是这些人在生活的其他方面都没问题,要不是PSA呈阳性也不会接受活检。因此除非有证据证明筛查能带来更好的结果,否则筛查就弊大于利。我们针对三十万名受试者进行了随机实验,发现相对危险性是1,换句话说从降低死亡率的角度来看,筛查一点好处都没有。
下面我们用图表展示一下。画面左边的一千个圆点代表一千个未接受筛查的人。其中7个暗红点代表在随机试验期间死于前列腺癌的人,210个红点代表死于其他原因的人。画面右边的一千个圆点代表一千个接受了筛查的人,还是有7个暗红点代表在死于前列腺癌的人,一点区别都没有,但是却多出了160个绿点,代表并未患上前列腺癌却遭到误诊的人,这些人全都接受了前列腺活检。另外还有20个蓝点代表并未患上前列腺癌却接受了手术或者化疗的人,这些人实际上根本不需要接受治疗。由此可见,借助PSA进行大规模筛查无法降低死亡率,却会导致许多人因为误诊而无谓地受罪。因此在现有技术条件下,我们显然不应该针对前列腺癌进行筛查。
最后就成年病人而言,还有些情况下我们只应该针对高危群体进行筛查。比方说长期糖尿病患者应当经常接受眼部筛查,寻找眼底病变的迹象,因为对于这些人来说尽早干预确实可以避免失明。也有些筛查专门针对具有早发癌症家族病史的人。这种人的数量很少,但是在年轻时患癌的可能性很高。对于这些高危人群来说筛查也是恰当做法。
那么针对成年人的筛查未来将如何发展?显而易见的是,只要能改善检测技术,筛查还能改善很多疾病的结果。首先是肺癌,目前业界正在辩论是否应该利用CT成像技术针对终生烟民进行筛查,因为他们的肺癌风险显然非常大。接下来还有胰腺癌、卵巢癌与食道癌也都是下一步将要纳入筛查的目标。目前这三种癌症的长期展望全都非常难看——我这么说是基于去年的数据——完全无法与乳腺癌、前列腺癌或者大肠癌的现状相比,因为这三种癌症目前的诊断时间普遍较晚。如果能够尽早诊断,所需治疗强度想必也会更轻……
就科学层面而言,我们正在改进风险分层的方法,越来越擅长识别高风险人群。比方说基因组与基因研究都会对我们有所帮助,但是还有许多其他测试能让我们确定某人患某病的风险远高于平均水平,需要接受更加频繁的筛查;某人患某病的风险比平均水平更低,筛查频率不妨降低一点。目前我们的分层标准还只有年龄与性别,今后很可能会更加细致。比方说比较出名的braca1和braca2乳腺癌基因,如果检测表明你携带这两个基因的话就该增加筛查频率。另一项将会很有用的技术是人工智能诊断,与其配套的技术可以是X光成像、CT成像或者核磁共振成像,也可以是直接观察细胞的组织学显微成像。关于人工智能的很多言论其实都是夸大其词,但是但是这项技术确实很擅长模式识别,并且必将在涉及这一需求的领域掀起革命。人工智能将会迅速处理大批量乳房X光片与宫颈抹片,从而显著提升我们的筛查能力。此外现在很多人都在讨论液体活检,即通过验血发现特定的早期癌症,通常借助基因检测。这些都是诊断侧的技术进步。另一方面我们的疗法也在变得越发安全。如果疗法更安全了,那么此前假阳性风险太大的筛查项目将会变得更加值得推广。最后,我们的诊断能力一直在随着时间推移而进步。
孕妇也能例行得到产前筛查的机会。产前筛查的主要对象是唐氏症或者说21-三体综合征,此外还有18-三体综合征或者说爱德华综合征与13-三体综合征或者说帕陶综合症。20岁左右女性生下唐氏症患儿的可能性是1/1500,到了40岁左右则将会上升到1/100,虽说依然是少数,但是发病率确实会上升。现代检测手段结合了超声波颈部检测与验血,时间通常是孕期的第10到14周。这样的检测并不完美,假如结果呈阳性,女性则要选择是否继续接受羊膜穿刺,既从羊膜囊抽取羊水,从而检验胎儿身边的细胞,此外还可以进行绒膜绒毛细胞取样。这些检测要准确的多,但是确实会造成微小却不为零的流产风险。因此女性必须做出选择。好在第一道筛查程序意味着只有极少数女性需要面临这样的抉择。第一道筛查很安全,完全没有导致流产的风险。婴儿出生第五天还要接受足跟采血筛查。这是为了检测一系列基因状况,一旦尽早发现就能显著改善患儿状况,例如囊肿性纤维化与先天性甲状腺功能减退。这些都是罕见病,但是只要尽早发现我们就能预防其进一步恶化。
最后谈一下传染病的筛查,这里我就不展开说了。传染病筛查不同于其他大规模筛查,也不同于一般意义上理解的为了早做手术而进行的筛查。在操作层面上传染病筛查十分棘手。如果被感染者能长时间保持被感染状态并且具有传染性,那么筛查还要容易一些,因为我们有时间在这些人传染更多人之前就将他们甄别出来。符合这一条件的慢性传染病包括肺结核、梅毒、沙眼以及昏睡病——最后这种病至今依然存在于中非地区。画面上显示的则是二十世纪初期进入美国的移民接受沙眼筛查的场景。总之,对于发病周期较长的慢性传染病,筛查确实曾经起到过作用。此外就传染病而言还存在主动筛查与被动筛查的区别。主动筛查既医务人员主动搜寻病例,被动筛查既医务人员等着出现症状的患者上门接受筛查——很多人都认为后者根本不算筛查。单纯依靠主动筛查,出现假阳性的风险要略微高一点,单纯依靠被动筛查又难免遗漏病例。英国曾经存在过非常广泛的肺结核筛查项目。在二十世纪五十年代我们曾经将检测卡车派往全国各地展开肺结核主动筛查,现在测试卡车已经少得多了,主要针对无家可归的流浪群体。这样做自然有助于他们的健康,同时也能避免他们进一步传播肺结核的风险。
总之,筛查在限制极大的条件下是很有用的工具,但是对于很多疾病来说都并不适用。作为筛查对象的疾病必须足够严重;诊断手段必须安全可靠——最好还足够廉价;必须存在与发病风险本身相比足够安全的疗法或者预防手段;疾病必须足够常见,否则凑不出足够的病例来支持筛查的必要性,而且还会出现一大堆假阳性结果;从疾病初现迹象到全面发作之间的时间要足够长,好让我们得以进行干预并且有益于病人。假设上述条件全都得到满足,筛查确实是控制疾病的良好方式,能让病人只需接受轻度治疗就生存得更长,并且在大多数情况下享受充实幸福的人生。我们一直在改进筛查的手段,但是就目前来说筛查的效用依然仅限于少数几种疾病。我希望未来十年这一情况能有所改变。谢谢大家。
- 相关回复 上下关系2
🙂Chris Whitty:筛查什么时候有用?
🙂你这个系列真不错,翻得也好,真费心了。 nanimarcus 字109 2021-04-04 04:18:33