新疫苗实验刷屏,科学的AB测试是如何混淆视听的?

新疫苗实验刷屏,科学的AB测试是如何混淆视听的?

世界上有三种谎言:
谎言、该死的谎言、统计数字。
Therearethreekindsoflies:
lies,damnedlies,andstatistics.

一、全世界瞩目的两个对照实验

这周频繁被2组对照实验刷屏,都和抗Covid-19有关。国际上对疫情的报道不断,但也没有这两组实验的结果来得刺激。

1、口罩实验

第一个刷屏的实验,是来自丹麦的“口罩防护效果”对照实验,如下图所示。

2020年11月18日, 医学内科领域顶级期刊《Annalsof Internal Medicine》发表了一篇“惊世骇俗”的论文, 这个论文提出了一个观点“戴口罩对于防护新冠没用”。这篇论文已经在71个国际主流媒体上被报道,推特上已经有55,994个转发和讨论帖。

文中详细描述了,在丹麦进行的、关于戴口罩预防新冠感染的随机对照试验:6000人随机分成两组,做了两个月试验,外出保持社交距离并戴口罩组的感染率是1.8%,外出保持社交距离不佩戴口罩的对照组感染率是2.1%。因为两组的感染率差异不显著,结果不具有统计学意义。因此,在这组实验中,结论是 “戴口罩的防护作用是无效的”。

2、新疫苗实验

第二个刷屏的实验,是登上各大主流媒体重磅头条的“最新疫苗有效性”对照实验,如下图所示。

同样是11月18日,药品制造商辉瑞公司宣布最新实验结果:他们研制的冠状病毒疫苗有效性为95%,且没有严重副作用。Covid-19疫情在全球范围内急剧上升期间,这组完整的疫苗试验结果给各国都打了一剂强心针。

这项试验包括近44,000名志愿者,其中一半人注射了疫苗、另一半人注射的是盐水(安慰剂)。然后,持续观察每组有多少人患上Covid-19。最终,在170例感染了Covid-19的患者中,安慰剂组占162例,疫苗组仅占8例。实验初步证明,该疫苗可以预防轻度和重度形式的Covid-19。如果疫苗的授权审批通过,辉瑞公司将全面投入量产。

二、被大众“误读”的三组数

 

对照实验(A/B测试)一直是科学阵地牢不可破的根基,它让我们更接近事情的真相,统计数据的价值也被充分发挥出来。但是,很多实验结果在向大众传播时,信息容易被误读,甚至会成为误导大家的工具。究其原因,只有一个:对A/B测试的理解不准确。统计数字从来不会说谎,说谎的是它们被解读的方式。

1、1.8% VS 2.1%

前面提到,在丹麦进行的、关于戴口罩预防新冠感染的随机对照试验中,6000人随机分成两组,试验进行了两个月,戴口罩组的感染率是1.8%,不戴口罩组的感染率是2.1%。在统计学上,这两组数据的差异没有显著性。所以,很多人就认为,口罩很鸡肋,对于防护病毒是无效的。

首先,在此研究进行的时候,新冠病毒感染在丹麦还很罕见,且丹麦的人口密集度低,口罩的作用本来就具有很大局限性,以至于该项研究得出的结论并不能反映:1.在新冠爆发期间,戴口罩的作用;2.在人口密集的地区,带口罩的作用。

其次,带面罩组有42名参与者(1.8%)、对照组有53名(2.1%)参与者感染,组间差异为-0.3百分点,这个百分点虽然不能说明显著性差异,但是如果换个角度解读,我们却能发现这组数据的可疑之处。

截至目前,丹麦实际的人群感染率约为3/1000,如果试验扩展到从整个丹麦人口中随机抽取6000人,非口罩组的感染人数大致为9个,这个数字远远低于实验中的53例。就算口罩可以降低50%的感染率(这已经相当高了,现实中不可能),那么,这个假想的实验中,口罩组最多可以减少4.5例感染。

而现实中的口罩组,感染人数竟然比对照组少了11例,这得多大的预防效果才能存在如此之大的人数差异呀?可见,这组实验结论的漏洞很大。

这还没有算上,被招募者的 6000 人,其职业、行动轨迹、行为习惯和身体素质都存在很大差异,如上图所示,仅职业不明的人群就占了总实验人数的 22% 。个体存在的差异会影响最终验证的结果,实验中参杂了太多的无关变量,导致实验结果很难被相信。

2、大样本量6000

姑且不谈现实中口罩的应用场景,这里仅深究一下6000的“大样本量”是否真的合理?

换句话说,3000对3000的实验设计,是否具有预测价值呢?丹麦平均的感染率约为千分之三,依旧假设人群感染率为3/1000,就算口罩的作用可以降低1/3的感染率(降低1/3已经是很强的作用了)。那么实验终点,非口罩组和口罩组预期感染人数分别是9例和6例,这一数字并不具备显著性。即使预期感染率达到5/1000(相当于武汉的感染率),那么非口罩组预期感染人数15例,口罩组为10例,粗略计算,p=0.42,还是没有显著差异....

直到感染率达到2%的极高水平,非口罩组为60例,口罩组为40例,p=0.01——这时候才达到统计学显著性水平。可见,6000人的设置并没有结合实际的人群低感染率来进行设计,只需稍微深究一下,就知道禁不起推敲。

换句话说,不是什么情况下,都适合做对照实验的。对照实验并不是万金油,必须和现实情况密切结合。如果实际需求的样本量很大、现实却只能收集很少的样本数据时,这样完成的实验结果,不仅不能说明问题,还很可能造成统计学上的某种误导。

3、新疫苗功效高达95%

上文还提到了有关“新疫苗”的试验,其结论也被很多人理解为,如果注射一支疫苗,就可以将感染机率降低95%。实际上,这个数字也很有误导性。95%这个数字是怎么来的呢?

以辉瑞公司的实验为例,首先招募了43,661名志愿者,研究人员等待170人出现Covid-19症状,并获得阳性测试结果。在这170个阳性结果中,有162个属于接受了安慰剂的对照组,只有8个是属于接受了疫苗的实验组。

然后,科学家对这两部分患者之间的相对差异做了定义:如果疫苗组和安慰剂组之间的感染人数没有差异,则功效为0%;如果疫苗组无人感染,则功效为100%。

通过计算,我们得出(100%-8/162)=95%,这个数字无疑是证明疫苗有效的有力证据。但是这个数字并不能说明:一旦接种疫苗后,生病的几率是多少。同理,它也不能说明大规模接种疫苗后,接种人群的疫情降低程度。

现实中,接种疫苗后的情况并不好估计,因为参加试验的人员不能反映整个人群的复杂情况,在实际情况中,人们可能会遇到各种各样的健康和反应的差异,仅仅是一次大规模临床实验,根本不能说明其效果。之所以大概率会被推行,是因为事出紧急,疫苗的正面作用一旦被认可,就很可能做大规模的接种。毕竟,减少病毒的传播是第一要务。

但是,如果人们接种了疫苗,然后放松了戴口罩或其他安全卫生措施,则很有可能增加冠状病毒传播给他人的机率,更何况还存在相当数量的无症状感染者。因此,慎重对待特别积极的实验结果,才是更科学的思考方式。

三、给营销A/B测试的启示

A/B测试在广告投放、转化迭代、优惠策略等众多的营销场景中,被广泛应用着。一说如何提高营销ROI,营销人最先想到的就是“做个A/B测试吧,咱用数据说话。”但是,营销中如何让测试数据说出正确的话,而不是像以上两个实验那样,对人产生不必要的误导呢?

1、测试不是打辅助,测试就是策略本身

与传统决策流程中的归纳后验式不同,A/B测试是一种先验的实验体系,属于预测型结论。和疫苗实验类似,得出的结论很难对全量流量做出预测,但是却可以作为权衡利弊的筹码,帮助你做出重大决策。

这也就带来了一个问题,很多人认为做完A/B测试,验出结果好坏,这个测试就可以结束了,殊不知营销的多变因素不亚于疫苗的接种情况,会遇到各种各样的差异性问题。这就需要营销人员持续地做测试,将测试作为一种手段和策略,而不是只给决策打个辅助,偶尔才用一下。

此外,将A/B测试当作策略、而非辅助,还有两个重要原因:

1.很多时候,做A/B实验时,会不自觉对用户进行筛选,这个时候得出的ROI较高,一旦扩量到全部用户,ROI可能就会降低(类比疫苗实验)。因此在说某个策略的ROI时,需要注意,是否是小规模用户的效率,而不是整体用户的ROI。这个时候,就需要做持续不断的测试,才有可能不断接近目标ROI。

2.还有一种新奇效应递减的情况,也很常见。在出某个新营销页面的时候,用户可能会比较感兴趣,这个时候效果最好。但是过一段时间,用户的新奇感就会消失,需要营销人员做持续、快速的创意测试,以防止因版本效果衰减而带来的转化率大幅波动。

【例子】

某头部在线教育企业的课程,在移动端推广效率成为其市场部门非常重视的核心指标之一。为提高用户的购买转化,营销和产品部门合作,决定通过A/B测试找到优化方案。

第一次测试,修改主标题,原版本的 “60万好老师”改为“名师1对1辅导”,转化率提升 3% 左右,采用试验版本。

第二次测试,改副标题,结果原版本的“预约免费试听课”比测试版的“寻找自己的1对1老师”,转化效果要好4.7%,于是继续采用原版本。

第三次测试最有趣,修改了按钮上的引导语。在按钮的点击转化方面,原始版本“免费试听”比试验版本“快速预约”高10%。但是,在后续的实际购买转化追踪数据显示,试验版本比原始版本高出9%!

对于这个试验结果,该品牌根据这个产品在市场上的发展阶段,进行了综合评估,最终还是决定最终的试验版本,尽管点击率差一些,但是转化收益最优。

可见,持续的测试、并根据实际业务情况做出优化,应该成为营销人的日常策略。因为总是有随市场变化的因素,今天表现好的元素也不一定明天还好,效果是动态的,测试也同样需要动态中进行。

更何况每次测试都可以得到一些新的积累,比如这个案例中,如果这个课程产品是刚起步阶段,需要更多地拉新用户,那么营销人员就应该选择原始版本——能获取更多潜在用户的资料。

2、测试结果要综合看,维度不能单一

通常,我们会从一个固定的测量维度来评估测试结果。但是如果只考虑一个维度也意味着脱离了情景来看实验数据。比如,疫苗实验的结果中,就没有考虑到无症状感染者的情况,很可能导致结论有偏差。

数字结果是一方面,但是其背后的业务含义更加重要,不能忽略。比如,在不同的情景下,你可能需要对相同的A/B测试结果,做出不同的决策。

一个营销活动,在进行不同优惠策略的A/B测试时发现,A版比B版的用户总活跃度高出5%,但是却同时降低了其中年轻用户的活跃度占比,那么应该推广哪个版本好呢?

情景一,这是一个中老年购买力占主导的营销活动,显然更倾向于总活跃度的提升,至于年轻人,反正也没有实际购买欲望,可以在这次活动中忽略掉。

情景二,这是一个青年人购买力占主导的营销活动,总活跃度提升,但年轻人活跃度度下降,很可能影响实际的成单率,A、B版本的选择,必须重新进行评估。

此外,维度不能单一,还包括避免习惯性地将测试结果当作一个绝对整体来看待。一般而言,从某个固定的测量维度来评估测试的结果是没错的,这样做通常可以避免在多个维度中挑选最符合“需要”的数据,而故意忽视不符合假设的结果。

但同样,仅考虑一个维度也意味着脱离了情景来看试验数据——不同的情景,很可能意味着对A/B测试结果截然不同的解释。

【例子】

几年前Airbnb对搜索页进行了改版设计。搜索页是Airbnb业务流程中非常重要的一个页面,决定后续的转化情况。

搜索页改版前后的变化如图,新版更强调房源的图片(Airbnb为房主提供专业的摄影服务)及标记了房源所在位置的地图。为了这次改版,团队投入了很多资源,设计人员和产品人员都预测新版肯定会表现更好,定性研究也表明新版本更好。

但针对搜索页的A/B测试结果却显示,新版转化率并没有更好。这个结果让人大跌眼镜,因此分析团队将数据细分到不同的情景中,来查找结果背后的真正原因。