无数人误解的P值:统计上显著不代表一定正确

回想电影《双面情人》的情节可以帮助我们想象:在某一个宇宙中,格温妮丝·帕特洛误了火车,参加测验迟到了,所以她很慌张,结果答得很差;在另一个宇宙中,她准时参加了测验,得了高分,并继续爱上了约翰·汉纳。随机变化也许不足以将她从笨蛋变成统计天才,但足以影响她的分数。每个人在测验中的表现都有一定程度的随机性,无论多么小。

如果有几个没读过这本书的人碰巧得分很低,或者几个读过这本书的人碰巧得分超高,就可能足以显著改变平均分,使读者看上去比非读者答得更好。

当有女士在场时,男士会为了给女士留下深刻印象而吃得更多吗?《每日电讯报》2015 年的某则新闻的标题做了肯定的回答。[1]这一情况后来也得到了路透社[2]和印度的《经济时报》[3]的报道。这些报道称,男性和女性一起用餐时,会比和其他男性一起用餐时多吃93%的比萨饼和86%的沙拉。报道基于康奈尔大学食品与品牌实验室的心理学家布莱恩·万辛克(Brian Wansink)和另外两名研究者的研究。[4]

到目前为止,你大概已经发现,数字并非总是完全可信。但这一次肯定不是记者的错。事实上,是这项研究出现了严重失误,而这个失误能让我们看到科学是如何运作以及如何出错的。要理解为什么这个报道中的统计数据不能信,我们就需要深入了解科学实践的机制。

只要读过任何关于科学或数字的新闻报道,你基本都会遇到“统计显著性”(statistical significance)这个词。如果你误以为这个措辞意味着你读到的统计数据很显著,也是情有可原。可惜,它比这要复杂得多。根据2019 年一篇论文的定义,统计显著性的含义如下[5]

假设原假设(null hypothesis)成立,并且通过从同一(批)总体中随机抽样来无限次重复同一研究,在所得的所有结果中,比当前结果更极端的结果少于5%。

你能看懂吗?我们试着来解释一下。

假设你想了解某件事,比如阅读一本名为《数字一点不老实》的书能否让人更好地理解新闻中的统计数据。你可以抽取一个多达1000人的大样本,该样本将包含这本书的数百万读者里的一些人,以及没读过这本书的一些人。(为了便于讨论,我们假设,在谁都没有读过这本书之前,这两个群体没有差别;即使我们知道,在现实中,平均而言,买这本书的人肯定远比总体人口中的其他人更聪明、更睿智、颜值更高。)

下一步,我们让样本中的每个人都做一个简单的统计能力小测验,看看读过这本书的人是否比没读过的人做得更好。

我们假设数据显示这本书的读者似乎在测验中表现更好。我们怎么知道这并非碰巧?我们怎么知道他们做得更好是因为一些实实在在的差异,而不仅仅是随机变化?要找出答案,我们可以使用一种名为“显著性检验”(significance testing,或称“假设检验”hypothesis testing)的统计学方法。

我们先设想一下如果这本书没产生任何效果,我们会看到怎样的结果。这个假设就叫“原假设”。另一种可能性是,这本书确实产生了一些积极效果——这个假设叫“对立假设”(alternative hypothesis)。用图表展示最为直观。在原假设下,我们预期会看到这样一条曲线:顶峰位于平均分附近,大部分人位于中部,得分很高和很低的人都是少数——就像正态分布曲线。我们预期读过这本书的人的平均分和分布曲线与没读过的人的几乎相同。

而在对立假设下,读过的人的平均分应该高于没读过的人,那么分布曲线将会向右平移。

但事情没这么简单。我们的原假设是说,这本书不起任何效果,而且两组人的统计学水平还非常不现实地完全在同一起跑线上,但即便在这样的假设下,还是有一些随机变化:有些人可能在那一天状态不佳。回想电影《双面情人》的情节可以帮助我们想象:在某一个宇宙中,格温妮丝·帕特洛误了火车,参加测验迟到了,所以她很慌张,结果答得很差;在另一个宇宙中,她准时参加了测验,得了高分,并继续爱上了约翰·汉纳。随机变化也许不足以将她从笨蛋变成统计天才,但足以影响她的分数。每个人在测验中的表现都有一定程度的随机性,无论多么小。

如果有几个没读过这本书的人碰巧得分很低,或者几个读过这本书的人碰巧得分超高,就可能足以显著改变平均分,使读者看上去比非读者答得更好。

现在我们假定,不管出于什么原因,测验结果显示这本书读者的得分比非读者更高。在我们的例子中,原假设是说读这本书没有任何效果,并且任何波动都只是随机产生的,而如果原假设成立,你要检验的就是这样的测验结果(或更极端的结果)出现的可能性有多大。这就是显著性检验。

我们不可以单凭一个证据就毫无疑义地说原假设是错的;理论上,无论结果和原假设的差距多么大,都有可能完全是巧合。但差距越大,巧合的可能性就越小。科学家们就把发生巧合的可能性大小叫“P值”(Probability value,P-value)

某些结果随机出现的可能性越小,p值就越低。因此,如果说读这本书没效果,而100次小测验里只观察到1次这么极端或更甚的结果,那我们就说p=0.01,或1/100。(接下来这一点非常重要,简直太,重,要,了,我们甚至想把这个重要的事情说三遍:它的含义并,不,是,说测验结果有1/100 的概率是错的。我们稍后会回到这一点,但这里需要做个标记。)

在科学的许多领域有一个惯例:如果 p≤0.05,即你预期出现如此极端的结果的可能性不超过5%,那么这个发现就有“统计显著性”,这意味着你可以推翻原假设。

假设我们查看结果时,发现读过这本书的人的平均分确实高于没读过的人。如果该结果的 p 值小于0.05,那我们就说我们达到了统计显著水平,可以推翻原假设(“读这本书什么用都没有”)而支持对立假设(“这本书让你的统计学能力变得更好”)。p值告诉我们的是,如果原假设成立,则我们如果要进行100次检验,就该预期读过这本书的人和没读过的人相比,获得和这次测验差不多的成绩的次数不超过5次。

统计显著性是个令人困惑的概念,即使对科学家来说也是如此。2002年的一项研究发现,100%的心理学本科生误解了统计显著性,更令人震惊的是,他们的讲师也有90%是如此。[7]另一项研究查看了28种心理学教材,其中25种在定义统计显著性时包含至少一项错误。[7]

让我们来消除一些可能的误解。首先,我们所说的“统计显著性”是一种人为的惯用分界点,记住这一点很重要。p=0.05没有任何神奇之处。你可以把这个值设置得更高,然后宣布更多的发现具有统计显著性;也可以把值设得更低,然后宣布更多结果不具有统计显著性,而很可能是巧合。设得越高,假阳性的风险就越大;设得越低,假阴性的风险就越大。如果实际上读我们的书有效果,但由于设置了特别严格的 p 值,可能会导致我们宣称读这本书没有任何效果——当然,反之亦然。

其次,统计学的“显著”也不是这个词的通常意义。例如,如果非读者组的平均分是65分,而读者组的平均分是68分,这可能达到了“统计显著性”,但你可能不觉得这有多大的显著意义。“统计显著性”衡量的是观测结果乃是巧合的可能性,而非它的重要性。

还有最后一点至关重要,统计显著性不是说,如果得到一个p=0.05的结果,你的假设就只有1/20的机会是错的。这种误解很常见,也是科学研究出错的重要原因。

问题在于,尽管 p≤0.05 的统计显著性完全是人为选定的,但科学家——更重要的是,期刊——经常将其视为一个分界点。如果你的研究发现 p=0.049,它也许就能发表;如果发现 p=0.051,它很可能不会被发表。而科学家要想获得资助、获得终身教职并让自己的职业生涯更上一层楼,就需要将自己的研究发表出去。他们受到极大的激励去寻找具有统计显著性的结果。

让我们回到读书实验。我们真的想证明我们的书能提高读者的统计能力,这样我们就可以登上《星期日泰晤士报》畅销书排行榜,还能参加所有最棒的鸡尾酒会。但我们进行实验后,只得到了p=0.08。

好吧,我们想,也许只是运气不好。所以我们把实验又做了一遍。这次得到了0.11。我们一次又一次地进行实验,直到最终得到了0.04。太棒了!我们报告了我们的发现,从此靠这本书的版税吃饭。但这个结果几乎可以肯定是假阳性。如果你把某项实验做了20次,那么你就该预期会看到1/20的巧合结果。

这不是我们唯一的途径。我们还可以用多种不同的方法雕琢数据。比如说,除了测量分数之外,我们还可以测量人们完成测验的速度,或者笔迹是否工整。如果读书组的得分没有表现得更高,我们可以看看他们是否完成得更快;如果这也没有的话,我们还可以看看他们的字是否变漂亮了。或者,你可以删除一些比较极端的结果,并把它们叫“离群值”(outliers)如果我们测量了足够多的东西,用足够多的方法把它们组合起来,或者对数据做出足够小且看似合理的调整,那么我们肯定能够出于巧合而得出某些发现。

让我们回到那些关于男性吃得更多以给女性留下深刻印象的报道。2016 年底,万辛克作为主要作者撰写了一篇博客文章,这篇文章后来导致他的职业生涯陷入困境。文章题为《从不说“不”的研究生》[8]

万辛克在文中讲了一名新加入他实验室的土耳其博士生的故事。他说,他给了她“一份数据集,来自一个自筹资金的研究,但研究失败了,没有找到任何发现(这是一项在一家意大利菜自助餐厅中进行的研究,为期一个月,我们给一部分人打了五折优惠)”。他告诉她仔细检查数据,因为“我们肯定能从这里找出点什么”。

在他的授意下,这位博士生以几十种不同的方式重新分析了数据,不出所料,发现了很多相关性,就像上面假想中的读书研究那样,我们大可以尽力雕琢数据,直到找到一个p<0.05 的结果。她和万辛克通过该数据集发表了五篇不同的论文,其中包括“男性会为给女性留下深刻印象而多吃”的研究。在这项研究中,他们发现,有女性在场时,男性吃更多比萨饼的 p值为0.02,吃更多沙拉的p值为0.04。

但那篇博客文章引起了科学家们的警觉。这样的行为叫“p值操纵”(p-hacking):“揉捏”数据,使p值低于 0.05,从而使研究得以发表。精通方法论的研究者开始查看万辛克过去的所有工作,还有一位消息人士将他的电邮信件泄露给了BuzzFeed新闻的科学调查记者斯蒂芬妮·M·李。原来,他让那位博士生将数据分解为“男性、女性、吃午餐的、吃晚餐的、独坐的、两人一桌的、两人以上一桌的、点酒的、点软饮的、靠近自助餐区的、远离自助餐区的等等”。[9]

人们也发现万辛克过去的论文存在其他方法论问题,更多电子邮件也揭示了他低劣的统计操作——在一封邮件中,他暗示 :“我们应该能从中找出多得多东西……我认为为了显著性和讲出好故事而挖掘数据乃是好事。”[10]他希望这项研究能够“病毒式成名”。

这个例子比较夸张,但没这么夸张的p值操纵比比皆是。它通常不会造成什么伤害。学者们迫切希望得到p<0.05,这样就能发表论文,于是他们会重新进行试验或重新分析数据。你可能听说过“可重复性危机”(replication crisis):在心理学及其他科学领域,有科学家得出了重要的发现,但当别人去重现这些研究时,发现许多结论实际上并不成立。这是因为那些科学家未能准确理解一个问题:他们不断地雕琢数据、重新研究,直到发现具有统计显著性的结果,却没有意识到这样做会使自己的工作变得毫无意义。

几位坚持科学原则且具有统计学头脑的研究人员和一位经验丰富的科学记者为了挖掘万辛克的行为,花了几个月的时间。而大多数时候,撰写科学文章的记者都是基于通稿来快速撰写新闻。他们通常没有数据集,即使有,他们也无法发现p值操纵。而经p值操纵的研究有一个不公平的优势:由于这些研究本身就不需要正确,让它们变得引人注目就更容易。所以这些研究经常出现在新闻中。

读者要在新闻报道中发现这一点并不容易。但我们需要明白:某件事仅仅是“统计上显著”,并不代表它真的具有显著、重大的意义,甚至不代表它是正确的。

本文来自微信公众号:返朴 (ID:fanpu2019),作者:汤姆·芝华士、大卫·芝华士,翻译:邓妍

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月6日
Next 2024年1月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日