辛普森悖论和“人民的希望”

tilamisu @ 2020年05月11日 一种生活

微信公众号:万精油

最近一个比较有争议的新闻是,被赋予厚望的Remdesivir (又名:人民的希望)在两个临床检验中得出相反的结论。一个说有效,一个说无效。 




有人会问:同一个药,有效就是有效,无效就是无效,怎么会有不同的结论?这是因为一个药是否有效,不像1+2=3那样有精准答案,它受到很多不定因素的影响。同一个药或许对甲有效,对乙无效,甚至今天对甲有效,明天对甲无效,...,等等各种不定因素。不过,如果一个药真的有效,在大多数时间对大多数人就会有有效的显示,整体效果不受那些不定因素的主导。这就是为什么临床检验需要有足够的人。



我们先来看看这个问题所牵涉到的两个临床检验。说无效的是中国人(曹彬领头)在中国做的临床检验(下文简称为曹彬检验),说有效的是NIH(美国国家卫生局)在美国做的临床检验(下文简称为NIH检验)。



有人会问,会不会有政治因素?我们不谈政治,只谈科学,用数字说话。



第一个重要数字就是规模,也就是参加临床检验的患者人数。曹彬检验是237人,NIH检验是1063人。在其他条件相同的情况下,当然是人数多的结果可信度比较高。



人数足够多才能从统计意义上避免不定因素的干扰。比如,假设我们要检测一个大学里男生比女生高这个论断。如果随机在校园里抽查三个男生,三个女生,那么结果就不一定能肯定这个论断。因为有可能抽到的三个女生平均比那三个男生高,或者差不多(比如一不小心抽到女篮或女排队员)。虽然这个可能性比较小,但还没有小到可以忽略的程度。如果抽查300个男生,300个女生,就基本上可以肯定得出男生比女生高的结论。具体需要多少人数,要看实际的差距的大小。如果论断是男子篮球队员比女子体操队员高,那么很少的人数就可以了,因为差距太明显。



可惜的是,虽然被寄予厚望,“人民的希望”不是药到病除的神药,而是只对病毒有一定抑制作用的药(比如加快治愈的时间或者减少一定程度的死亡率),也就是说药效不是特别强。如果平均能加快治愈两天,那么有些人就会加快四天,七天,有些人还有可能变慢。当然,如果能确认平均能加快痊愈时间两天,也是很有用的。但是,要验证这种小的疗效,就必须要用很大的数量来检验。曹彬检验的人数不够。按照曹彬自己的话来说,本来以为是上清华的(意思是药有强效),结果只能读一本(意思是药效不大)。药效不大,就需要更多的人。因为人数不够,曹彬检验最后被叫停了。所以,严格说起来,不能说是两个临床检验得出了相反结果,因为有一个根本就没有做完。曹彬他们发表的只是中间数据的结果。文章最后还强调说,要得出准确判断,必须做更大的实验。



一个有趣的问题是,中国的检验是在新冠病毒还在中国爆发持续的时候,怎么会找不到足够的患者呢?听到一种解释是,那一段时间,在中国同时进行着几十个甚至上百个临床检验,其中包括一些中药配方,豆浆,双黄莲之类的。每个检验都需要人,而且临床检验要求患者不能用别的药。大家都要人,最后当然是有些检验找不够人。比较讽刺的是,真正有一定希望的检验找不够患者,但各种配方,清散剂却能够找够,甚至得出有99%的疗效(这里面问题很多,不在这里讨论)。什么叫成事不足,败事有余,这就是。



NIH检验最后得出的结论是,Remdesivir能够加快痊愈4天,有统计意义。死亡率方面有一定的效果(用药组是8%,对照组是11%),但这个效果没达到统计意义上的区别标准(statistical significance)。这就是我们前面说的,有疗效,但不是神药那样强。



关于曹彬检验得不出药物有效的结论还有一些其它解释。比如,曹彬说因为有效的定义不一样(就是打分系统不一样);还有一种解释说,对照组的患者也有用别的药等等。但是,另外还有一个原因,可以直接影响结果,得出无效的结论。讨论这个原因的人不多,我们就展开来说一说。



这个原因就是分组问题。这实际上就是我这篇文章的标题的另一部分,辛普森悖论。我们先讲一讲这个悖论,再回头讲它与曹彬药检有什么关系。



辛普森悖论说,在对甲,乙做比较时,如果把甲乙分成一些小组,有可能出现甲在每个小组都比乙强,但整体上乙却比甲强的情况。



辛普森悖论在现实生活中最有名的例子是贝克莱性别歧视案。有人起诉贝克莱大学,说他们歧视妇女。说有数据显示他们学校男人录取率比女人录取率高。后来校方给出数据,虽然从全校总数来看,男人录取率比女人高,但每个系里女人录取率都比男人高。为什么会出现这种情况呢?贝克莱的具体数字比较麻烦,我把它化简一下便于解释。



假设总共有20个女人和20个男人申请一个大学的教学工作。最后的结果是有15个男士,10个女士被聘用了。表面上看,男人录取率75%,女人录取率50%,明显歧视。但是,当我们仔细看数据时发现:20个男人中有16个申请的是理工科系,有4个申请的是文史哲系。反之,女人中只有4个人申请理工科,16个申请的是文史哲。我们用下面的表格来总结

 

 

从表格中可以看出,不论是理工科还是文史哲,女生录取率都比男生高,但总录取率却是男生比女生高。这个悖论数据的出现是因为文史哲的录取率比理工科低。理工科20个申请人里录取了18个,而文史哲僧多粥少,20个申请人里只录取了7个。而女人申请文史哲的比较多。这相当于说两个班比较考试成绩,两份试卷,一难一易。甲班大部分都选容易的考,而乙班大部分都选难的考。最后的考试成绩不能用来说明乙班的改卷老师更苛刻。




图片说明:因为著名连续剧,辛普森这个形象在美国家喻户晓。辛普森是老顽固。把一个老顽固单独分在一组,其他人做对照组,图片从形象到组合结构都很贴切。



说到底,辛普森悖论的产生是因为样本分布不均。



回头再来说曹彬检验的患者分布问题。



检验一个药是否有效的主要方法(也是几乎所有临床检验所用的方法)就是把患者分成两组,一组用药(治疗组),另一组不用药(对照组)。最后来比较治疗组与对照组的情况。为避免心理作用,对照组也吃药,只不过那是假药,没有任何作用的替代品。下面是我从曹彬文章中截图出来的分组表格最前面一部分。






有很多数据表明,新冠病毒威胁最大的人群是那些本身有疾病的人群。有资料说在因新冠病毒死亡的人群中,本身有疾病的占90%以上。在这些疾病中,危险最大的是心血管疾病,糖尿病,高血压,呼吸道疾病。再看一看上面的表格,治疗组的高血压,糖尿病,心血管病百分比都比对照组高4%到8%,这个是一个不可忽略的差距。后面还有一条呼吸急促,多了9%。治疗组157个人,6%差不多就是10个人。每种疾病多10个,就多出几十个高险病人(考虑到这些疾病有交集,或许没有几十个,但多20个也不是少数)。也就是说治疗组的患者情况要严重很多。按我们前面提法,相当于考试的卷子要难很多。在这种情况下,Remdesivir本来就不大的优势当然就检测不出来了。



前面已经说了,曹彬检验得不出有效的结果的原因有很多,分组问题只是其中一个方面。我只是想利用这个热门话题,普及一下著名的辛普森悖论。也就是通常所说的蹭个热度。如果你因为这个热度点进来读了这篇文章,觉得学到了一点知识,或者搞清楚了一个问题,那么我写这篇文章的目的就达到了。



以前读日本棋手大竹英雄写的一本围棋定式书,在写完一个大型定式后他说,定式很长,跟下来不容易,辛苦了。我也借这段话来做文章的结尾:文章很长,读下来不容易,辛苦了。


链接