辛普森悖论和“人民的希望”

tilamisu @ 2020年05月11日一种生活

微信公众号：万精油

最近一个比较有争议的新闻是，被赋予厚望的Remdesivir (又名：人民的希望）在两个临床检验中得出相反的结论。一个说有效，一个说无效。

有人会问：同一个药，有效就是有效，无效就是无效，怎么会有不同的结论？这是因为一个药是否有效，不像1+2=3那样有精准答案，它受到很多不定因素的影响。同一个药或许对甲有效，对乙无效，甚至今天对甲有效，明天对甲无效，...，等等各种不定因素。不过，如果一个药真的有效，在大多数时间对大多数人就会有有效的显示，整体效果不受那些不定因素的主导。这就是为什么临床检验需要有足够的人。

我们先来看看这个问题所牵涉到的两个临床检验。说无效的是中国人（曹彬领头）在中国做的临床检验（下文简称为曹彬检验），说有效的是NIH（美国国家卫生局）在美国做的临床检验（下文简称为NIH检验）。

有人会问，会不会有政治因素？我们不谈政治，只谈科学，用数字说话。

第一个重要数字就是规模，也就是参加临床检验的患者人数。曹彬检验是237人，NIH检验是1063人。在其他条件相同的情况下，当然是人数多的结果可信度比较高。

人数足够多才能从统计意义上避免不定因素的干扰。比如，假设我们要检测一个大学里男生比女生高这个论断。如果随机在校园里抽查三个男生，三个女生，那么结果就不一定能肯定这个论断。因为有可能抽到的三个女生平均比那三个男生高，或者差不多（比如一不小心抽到女篮或女排队员）。虽然这个可能性比较小，但还没有小到可以忽略的程度。如果抽查300个男生，300个女生，就基本上可以肯定得出男生比女生高的结论。具体需要多少人数，要看实际的差距的大小。如果论断是男子篮球队员比女子体操队员高，那么很少的人数就可以了，因为差距太明显。

可惜的是，虽然被寄予厚望，“人民的希望”不是药到病除的神药，而是只对病毒有一定抑制作用的药（比如加快治愈的时间或者减少一定程度的死亡率），也就是说药效不是特别强。如果平均能加快治愈两天，那么有些人就会加快四天，七天，有些人还有可能变慢。当然，如果能确认平均能加快痊愈时间两天，也是很有用的。但是，要验证这种小的疗效，就必须要用很大的数量来检验。曹彬检验的人数不够。按照曹彬自己的话来说，本来以为是上清华的（意思是药有强效），结果只能读一本（意思是药效不大）。药效不大，就需要更多的人。因为人数不够，曹彬检验最后被叫停了。所以，严格说起来，不能说是两个临床检验得出了相反结果，因为有一个根本就没有做完。曹彬他们发表的只是中间数据的结果。文章最后还强调说，要得出准确判断，必须做更大的实验。

一个有趣的问题是，中国的检验是在新冠病毒还在中国爆发持续的时候，怎么会找不到足够的患者呢？听到一种解释是，那一段时间，在中国同时进行着几十个甚至上百个临床检验，其中包括一些中药配方，豆浆，双黄莲之类的。每个检验都需要人，而且临床检验要求患者不能用别的药。大家都要人，最后当然是有些检验找不够人。比较讽刺的是，真正有一定希望的检验找不够患者，但各种配方，清散剂却能够找够，甚至得出有99%的疗效（这里面问题很多，不在这里讨论）。什么叫成事不足，败事有余，这就是。

NIH检验最后得出的结论是，Remdesivir能够加快痊愈4天，有统计意义。死亡率方面有一定的效果（用药组是8%，对照组是11%），但这个效果没达到统计意义上的区别标准(statistical significance）。这就是我们前面说的，有疗效，但不是神药那样强。

关于曹彬检验得不出药物有效的结论还有一些其它解释。比如，曹彬说因为有效的定义不一样（就是打分系统不一样）；还有一种解释说，对照组的患者也有用别的药等等。但是，另外还有一个原因，可以直接影响结果，得出无效的结论。讨论这个原因的人不多，我们就展开来说一说。

这个原因就是分组问题。这实际上就是我这篇文章的标题的另一部分，辛普森悖论。我们先讲一讲这个悖论，再回头讲它与曹彬药检有什么关系。

辛普森悖论说，在对甲，乙做比较时，如果把甲乙分成一些小组，有可能出现甲在每个小组都比乙强，但整体上乙却比甲强的情况。

辛普森悖论在现实生活中最有名的例子是贝克莱性别歧视案。有人起诉贝克莱大学，说他们歧视妇女。说有数据显示他们学校男人录取率比女人录取率高。后来校方给出数据，虽然从全校总数来看，男人录取率比女人高，但每个系里女人录取率都比男人高。为什么会出现这种情况呢？贝克莱的具体数字比较麻烦，我把它化简一下便于解释。

假设总共有20个女人和20个男人申请一个大学的教学工作。最后的结果是有15个男士，10个女士被聘用了。表面上看，男人录取率75%，女人录取率50%，明显歧视。但是，当我们仔细看数据时发现：20个男人中有16个申请的是理工科系，有4个申请的是文史哲系。反之，女人中只有4个人申请理工科，16个申请的是文史哲。我们用下面的表格来总结

从表格中可以看出，不论是理工科还是文史哲，女生录取率都比男生高，但总录取率却是男生比女生高。这个悖论数据的出现是因为文史哲的录取率比理工科低。理工科20个申请人里录取了18个，而文史哲僧多粥少，20个申请人里只录取了7个。而女人申请文史哲的比较多。这相当于说两个班比较考试成绩，两份试卷，一难一易。甲班大部分都选容易的考，而乙班大部分都选难的考。最后的考试成绩不能用来说明乙班的改卷老师更苛刻。

图片说明：因为著名连续剧，辛普森这个形象在美国家喻户晓。辛普森是老顽固。把一个老顽固单独分在一组，其他人做对照组，图片从形象到组合结构都很贴切。

说到底，辛普森悖论的产生是因为样本分布不均。

回头再来说曹彬检验的患者分布问题。

检验一个药是否有效的主要方法（也是几乎所有临床检验所用的方法）就是把患者分成两组，一组用药（治疗组），另一组不用药（对照组）。最后来比较治疗组与对照组的情况。为避免心理作用，对照组也吃药，只不过那是假药，没有任何作用的替代品。下面是我从曹彬文章中截图出来的分组表格最前面一部分。

有很多数据表明，新冠病毒威胁最大的人群是那些本身有疾病的人群。有资料说在因新冠病毒死亡的人群中，本身有疾病的占90%以上。在这些疾病中，危险最大的是心血管疾病，糖尿病，高血压，呼吸道疾病。再看一看上面的表格，治疗组的高血压，糖尿病，心血管病百分比都比对照组高4%到8%，这个是一个不可忽略的差距。后面还有一条呼吸急促，多了9%。治疗组157个人，6%差不多就是10个人。每种疾病多10个，就多出几十个高险病人（考虑到这些疾病有交集，或许没有几十个，但多20个也不是少数）。也就是说治疗组的患者情况要严重很多。按我们前面提法，相当于考试的卷子要难很多。在这种情况下，Remdesivir本来就不大的优势当然就检测不出来了。

前面已经说了，曹彬检验得不出有效的结果的原因有很多，分组问题只是其中一个方面。我只是想利用这个热门话题，普及一下著名的辛普森悖论。也就是通常所说的蹭个热度。如果你因为这个热度点进来读了这篇文章，觉得学到了一点知识，或者搞清楚了一个问题，那么我写这篇文章的目的就达到了。

以前读日本棋手大竹英雄写的一本围棋定式书，在写完一个大型定式后他说，定式很长，跟下来不容易，辛苦了。我也借这段话来做文章的结尾：文章很长，读下来不容易，辛苦了。

链接

上一篇：68岁教授为97岁妈妈跳舞：让她高兴
下一篇：什么事是父母对你做过，而你不会对孩子身上重蹈覆辙的？

辛普森悖论和“人民的希望”

打赏一下

微信扫一扫打赏

支付宝扫一扫打赏