平均智商是100。这是标准答案、课本答案,也是大多数网站在开头就塞给你的答案。

这也是那种会让聪明人起疑的回答,因为它听起来几乎整齐了。说实话,你的怀疑很健康。

诀窍在这儿:IQ并不像平均身高——我们测一堆人就能得出一个数字。现代IQ测试会进行标准化,让常模人群的平均分是100。换句话说,100并不是大自然刻在山上的神秘事实。它只是测试设计者设定的参照点,让分数更好理解。

这并不意味着智商是假的或没用的。只是说明你得问个更好的问题:不是“智商平均是多少?”,而是“对谁来说?”、“在什么测试下?”、“以什么时间为基准?”以及“和哪个群体做对比?”一旦你问清楚,这个话题就会变得更有意思。

100 是平均值,因为这项测试就是按这种方式设计的

早期的智商测试并不像现代测试那样。阿尔弗雷德·比奈在法国的最初研究——在我们的智力与智商测试的历史文章中有更深入的讲解——主要是为了找出可能需要额外教育支持的孩子。后来,威廉·斯特恩和刘易斯·特曼推广的旧方法用了“心理年龄公式”:心理年龄 ÷ 实际年龄,再乘以 100。对孩子来说还算奏效,但一到成人阶段就很尴尬了——因为“心理年龄”在家庭聚餐时可不是你想拿来算的东西。

现代的智商测验会用心理学家所说的偏差智商。它们不再问“10岁的你是否像12岁的孩子那样想”,而是把你的表现与同龄人中一大批经过标准化测试的样本进行对比。随后会把原始分数换算成:分数分布的平均值为100,通常标准差为15。

正如医疗指南《标准护理》所解释的那样,现代IQ分数会被换算为均值为100、标准差为15的正态分布。Psych Central在2022年的概述里也表达了同样的观点:平均数和中位数都设为100。所以,如果有人想要“常规答案”,那就是100。

为什么是100?大多是因为它很方便。它是个容易把握的中点,而且你一直就能直观理解:比它更大的数就是高于平均水平,低于它的数就是低于平均水平。出题的人要是想搞得更戏剧化,本来也可以选500,但还好他们没这么做。

这也是为什么“平均智商在85到115之间”这句话有点不够严谨。严格来说,100才是平均值。85到115这个区间是平均范围,也就是大多数人会落在的那一带。

用大白话说清楚你的分数意味着什么

一旦你知道IQ分数以100为中心,下一步就该看“分散程度”。大多数主要的智商测试都用15分的标准差。这样你就能得到一张很方便的钟形曲线“地图”。

大约68%的人分数在85到115之间,约95%的人在70到130之间。只有约2%的人高于130,低于70的人比例也差不多。正因为如此,130常被当作“非常优秀表现”的粗略门槛;而低于70的分数,可能是对智力障碍评估的一部分。不过,临床医生不会仅凭IQ就诊断智力障碍;日常适应能力——一个人能把日子过得多好——同样很关键。

百分位在这里也同样有帮助。IQ 为 100 大约相当于第 50 个百分位。IQ 为 115 大约是第 84 个百分位。IQ 为 130 大约是第 98 个百分位。所以,当有人说自己 IQ 130,并不是说他在 100 道题里答对了 130 题——那就太不符合算术常识了。TA 想表达的是:他比规范样本组中大约 98% 的人考得更高。

一旦你搞懂了百分位,你会发现那条著名的钟形曲线不再像抽象的“统计墙纸”,而更像一张地图。接下来我们要问:真实数据真的会表现得那样吗?

钟形曲线可不是个“骗局”

你大概在网上见过那种经典的“钟形曲线”图,通常会配上一些糟糕的观点。虽然让人烦,但它的基本形状本身确实存在。

智商测试旨在生成近似正态分布的结果,实际中它们通常确实如此。2023年,Richard Warne在回顾关于不同国家平均智商估计的棘手研究时表示:智商数据在统计上总体表现得足够“规矩”,因此计算平均值并不会违背常见假设。听起来有点枯燥,但很关键:你真的可以用更合理的方式谈“平均分”。

在一些人会被贴标签的群体里,你也能看到这种模式。心理学家 Bonnie Kaplan 和同事对有多动症(ADHD)、阅读困难或两者都有的孩子做了一项研究,发现这三组里估算的整体智商(Full-Scale IQ)分布,并没有明显不同于正态分布;而且超过一半的孩子都落在平均水平。结论也很直白、让人耳目一新:有 ADHD 的孩子,并不比其他孩子更可能拥有高于平均的智商。

我喜欢这项研究,因为它一下子戳破两个误区。首先,钟形曲线出现得正是我们预期的那样。其次,临床标签可不会神奇地就告诉你一个人的智力。真实的人就是这么固执,不肯轻易配合网络刻板印象(真是够呛的,但也确实如此)。

现在说点乱的:真实的群体并不总是平均到100

如果智商测试是以100为常模,为什么你有时会看到说美国平均值大约是97,或者“全球平均智商”大约是89?官方答案是错的吗?

不对。但这就是短语平均智商改变含义的地方。

当作者谈某个国家的平均智商时,通常是在把不同样本、不同年份、不同测验的数据混在一起,甚至有时还用到很可疑的方法。这和测试里预设的、标准化为100的分数可不是一回事。

比如,Psych Central 引用了一个估计:2019 年美国平均 IQ 为 97.43。这个数值并非不可能,但它也不是像天气预报一样悬在空中的“美国人永恒属性”。关键在于这个估计是怎么得出的。

Warne 在 2023 年的回顾在这里特别有用,因为他拒绝站队、不同意“各喊各的”的两派对立。他并不说国家 IQ 数据集是完美的,也不说它们一无是处。他认为其中一些估计“确实捕捉到了某些重要信息”,但同时也指出了主要的质量问题,尤其是在数据稀少或过时的国家。

他的一条显著发现是:同一国家在多次抽样下的估计值,平均通常只差约 5.8 分;但也有些国家会出现超过 20 分的偏差,因为某个老旧或数据质量较差的样本会“带偏”整体图景。他还表明:取决于不同假设,从某份备受争议的数据集算出的全球平均值,可能落在约 86.7 到 88.3 之间。你现在脑子可能都要沸腾了:这是不是意味着人类“真正”的平均 IQ 并不等于 100?别急。

正如韦恩所强调的,IQ是衡量指标,不等同于“智力”本身。群体平均值也无法告诉你差异究竟来自教育、营养、健康、熟悉测试、语言、抽样偏差,或其他原因。它们当然也无法反映任何人的先天潜力。这个观点我尤其在意:因为公众对IQ的讨论常常是——从一个站不太稳的数字出发,在大约十二秒内冲刺到关于文明的大理论。那不叫科学。那只是连着Wi‑Fi的咖啡因。

相比于什么时候?弗林效应彻底改变了一切

还有一个原因让平均IQ变得不那么稳:对比群体会随着时间变化。

在20世纪的大部分时间里,许多国家的智商测试原始分数都在上升。这个规律被称为弗林效应(Flynn effect),以研究者詹姆斯·弗林命名。《照护标准》摘要提到经典估计是每十年约3个智商点,而该报告梳理的更广泛研究文献中,在Trahan等人2014年的一项Meta分析里,效应约为每十年2.93分。Pietschnig和Voracek在2015年的后续Meta分析也发现总体确有提升,但并不在所有形式的智力上同样显著。

这意味着,如果你用旧的标准给现代人做一套老版智商测试,他们的分数可能会明显高于100。并不一定是人类大脑突然“开了涡轮模式”,而是环境变了:更好的教育、更充足的营养、更完善的医疗,以及对抽象问题解决的熟悉度,可能都在其中起了作用。

这就是为什么智商测试必须重新校准。要是没这么做,“平均值”就会一路往上飘,最后失去“平均”的意义。换句话说,只要测试会更新,100 才能保持稳定,就像尺子会被重新校准。

有趣的是,一些国家现在出现了弗林效应放缓,甚至回转。所以,就算分数长期上涨,也并非自然定律。智力研究还有个“坏习惯”:会惩罚那些太得意的人(不过说实话,这项“服务”挺有用)。

平均IQ能告诉你什么——以及它绝对不能说明什么

相当多——前提是你保持自律。相反,如果你不做到,那远没有人想象的那么多。

在个人层面,智商测试真的很有用。比如校心理师可能会用它来找出:为什么有的孩子读得很顺,却在工作记忆上卡得很严重;或者为什么另一个孩子需要更进阶的学业路线。在临床场景里,智商分数也可能是评估发育状况或认知衰退的一部分。这是现实的价值,不是那种“测量学装饰”。

在小组层面,平均分能用来描述规律。但描述不等于解释。我们前面说过:一个组的平均值并不能告诉你为什么它会变成这样。这个区别非常关键。

比如,报告中的研究总结显示,环境会强力影响智商结果。在一项著名的2003年研究里,Eric Turkheimer和同事发现:在贫困家庭中,共同环境对孩子智商差异的解释远超基因——这也是我们在“智力是否具有遗传性”文章里探讨的内容;而在富裕家庭中,遗传差异解释了更多的变异。这类发现,足以让任何阵营的人都先冷静下来想一想。

社会环境也很重要。克劳德·斯蒂尔和乔舒亚·阿伦森早就用经典研究表明:当人们担心“证实自己群体的负面刻板印象”时,刻板印象威胁会压低测试表现。所以,在我们还没说那些关于种族、国家或“文明智力”的巨大结论(这本身就很不妙)之前,你得先承认一件基本事实:测试表现并不是在真空中产生的。

这就是为什么一提到智商被当成命运,我就觉得不安。科学并不支持这一点。智商确实衡量了真实且重要的东西,但它并不能以任何完整的方式衡量你的价值、创造力、善良、判断力,或你未来会怎样。它只是一个工具——有时还挺锋利。但终究还是一个工具。

你真正该记住的答案是啥

如果有人在晚餐时把你围住,问:“平均智商是多少?”,你可以很放心地说:在现代标准化智商测试里是100分

但现在你知道了答案的真正“藏身之处”:那个100只是校准后的中心点,并不是关于人类物种的神奇真理。大多数人的分数在85到115之间,整体呈钟形分布。不同国家、样本和年代会让实测平均值有所变化;而这些差异的意义,往往比你在网上看到的要难解读得多。

所以下次你在网上看到那种夸张的智商说法,别光盯着数字。问你四个“烦人”的问题:谁被测试了?用的什么测验?依据哪些常模?目的又是什么?他们可能不再邀请你去烧烤,但你的理解会提升一大截。

在我看来,这就是智力研究最有意思的部分。数据看起来很漂亮,但现实却“顺手打脸”得很。