平均智商是多少？简单答案与混乱的真相

平均智商是100。这是标准答案、课本答案，也是大多数网站在开头就塞给你的答案。

‍

这也是那种会让聪明人起疑的回答，因为它听起来几乎太整齐了。说实话，你的怀疑很健康。

‍

诀窍在这儿：IQ并不像平均身高——我们测一堆人就能得出一个数字。现代IQ测试会进行标准化，让常模人群的平均分是100。换句话说，100并不是大自然刻在山上的神秘事实。它只是测试设计者设定的参照点，让分数更好理解。

‍

这并不意味着智商是假的或没用的。只是说明你得问个更好的问题：不是“智商平均是多少？”，而是“对谁来说？”、“在什么测试下？”、“以什么时间为基准？”以及“和哪个群体做对比？”一旦你问清楚，这个话题就会变得更有意思。

‍

100 是平均值，因为这项测试就是按这种方式设计的

早期的智商测试并不像现代测试那样。阿尔弗雷德·比奈在法国的最初研究——在我们的智力与智商测试的历史文章中有更深入的讲解——主要是为了找出可能需要额外教育支持的孩子。后来，威廉·斯特恩和刘易斯·特曼推广的旧方法用了“心理年龄公式”：心理年龄 ÷ 实际年龄，再乘以 100。对孩子来说还算奏效，但一到成人阶段就很尴尬了——因为“心理年龄”在家庭聚餐时可不是你想拿来算的东西。

‍

现代的智商测验会用心理学家所说的偏差智商。它们不再问“10岁的你是否像12岁的孩子那样想”，而是把你的表现与同龄人中一大批经过标准化测试的样本进行对比。随后会把原始分数换算成：分数分布的平均值为100，通常标准差为15。

‍

正如医疗指南《标准护理》所解释的那样，现代IQ分数会被换算为均值为100、标准差为15的正态分布。Psych Central在2022年的概述里也表达了同样的观点：平均数和中位数都设为100。所以，如果有人想要“常规答案”，那就是100。

‍

为什么是100？大多是因为它很方便。它是个容易把握的中点，而且你一直就能直观理解：比它更大的数就是高于平均水平，低于它的数就是低于平均水平。出题的人要是想搞得更戏剧化，本来也可以选500，但还好他们没这么做。

‍

这也是为什么“平均智商在85到115之间”这句话有点不够严谨。严格来说，100才是平均值。85到115这个区间是平均范围，也就是大多数人会落在的那一带。

‍

用大白话说清楚你的分数意味着什么

一旦你知道IQ分数以100为中心，下一步就该看“分散程度”。大多数主要的智商测试都用15分的标准差。这样你就能得到一张很方便的钟形曲线“地图”。

‍

大约68%的人分数在85到115之间，约95%的人在70到130之间。只有约2%的人高于130，低于70的人比例也差不多。正因为如此，130常被当作“非常优秀表现”的粗略门槛；而低于70的分数，可能是对智力障碍评估的一部分。不过，临床医生不会仅凭IQ就诊断智力障碍；日常适应能力——一个人能把日子过得多好——同样很关键。

‍

百分位在这里也同样有帮助。IQ 为 100 大约相当于第 50 个百分位。IQ 为 115 大约是第 84 个百分位。IQ 为 130 大约是第 98 个百分位。所以，当有人说自己 IQ 130，并不是说他在 100 道题里答对了 130 题——那就太不符合算术常识了。TA 想表达的是：他比规范样本组中大约 98% 的人考得更高。

‍

一旦你搞懂了百分位，你会发现那条著名的钟形曲线不再像抽象的“统计墙纸”，而更像一张地图。接下来我们要问：真实数据真的会表现得那样吗？

‍

钟形曲线可不是个“骗局”

你大概在网上见过那种经典的“钟形曲线”图，通常会配上一些糟糕的观点。虽然让人烦，但它的基本形状本身确实存在。

‍

智商测试旨在生成近似正态分布的结果，实际中它们通常确实如此。2023年，Richard Warne在回顾关于不同国家平均智商估计的棘手研究时表示：智商数据在统计上总体表现得足够“规矩”，因此计算平均值并不会违背常见假设。听起来有点枯燥，但很关键：你真的可以用更合理的方式谈“平均分”。

‍

在一些人会被贴标签的群体里，你也能看到这种模式。心理学家 Bonnie Kaplan 和同事对有多动症（ADHD）、阅读困难或两者都有的孩子做了一项研究，发现这三组里估算的整体智商（Full-Scale IQ）分布，并没有明显不同于正态分布；而且超过一半的孩子都落在平均水平。结论也很直白、让人耳目一新：有 ADHD 的孩子，并不比其他孩子更可能拥有高于平均的智商。

‍

我喜欢这项研究，因为它一下子戳破两个误区。首先，钟形曲线出现得正是我们预期的那样。其次，临床标签可不会神奇地就告诉你一个人的智力。真实的人就是这么固执，不肯轻易配合网络刻板印象（真是够呛的，但也确实如此）。

‍

现在说点乱的：真实的群体并不总是平均到100

如果智商测试是以100为常模，为什么你有时会看到说美国平均值大约是97，或者“全球平均智商”大约是89？官方答案是错的吗？

‍

不对。但这就是短语平均智商改变含义的地方。

‍

当作者谈某个国家的平均智商时，通常是在把不同样本、不同年份、不同测验的数据混在一起，甚至有时还用到很可疑的方法。这和测试里预设的、标准化为100的分数可不是一回事。

‍

比如，Psych Central 引用了一个估计：2019 年美国平均 IQ 为 97.43。这个数值并非不可能，但它也不是像天气预报一样悬在空中的“美国人永恒属性”。关键在于这个估计是怎么得出的。

‍

Warne 在 2023 年的回顾在这里特别有用，因为他拒绝站队、不同意“各喊各的”的两派对立。他并不说国家 IQ 数据集是完美的，也不说它们一无是处。他认为其中一些估计“确实捕捉到了某些重要信息”，但同时也指出了主要的质量问题，尤其是在数据稀少或过时的国家。

‍

他的一条显著发现是：同一国家在多次抽样下的估计值，平均通常只差约 5.8 分；但也有些国家会出现超过 20 分的偏差，因为某个老旧或数据质量较差的样本会“带偏”整体图景。他还表明：取决于不同假设，从某份备受争议的数据集算出的全球平均值，可能落在约 86.7 到 88.3 之间。你现在脑子可能都要沸腾了：这是不是意味着人类“真正”的平均 IQ 并不等于 100？别急。

‍

正如韦恩所强调的，IQ是衡量指标，不等同于“智力”本身。群体平均值也无法告诉你差异究竟来自教育、营养、健康、熟悉测试、语言、抽样偏差，或其他原因。它们当然也无法反映任何人的先天潜力。这个观点我尤其在意：因为公众对IQ的讨论常常是——从一个站不太稳的数字出发，在大约十二秒内冲刺到关于文明的大理论。那不叫科学。那只是连着Wi‑Fi的咖啡因。

‍

相比于什么时候？弗林效应彻底改变了一切

还有一个原因让平均IQ变得不那么稳：对比群体会随着时间变化。

‍

在20世纪的大部分时间里，许多国家的智商测试原始分数都在上升。这个规律被称为弗林效应（Flynn effect），以研究者詹姆斯·弗林命名。《照护标准》摘要提到经典估计是每十年约3个智商点，而该报告梳理的更广泛研究文献中，在Trahan等人2014年的一项Meta分析里，效应约为每十年2.93分。Pietschnig和Voracek在2015年的后续Meta分析也发现总体确有提升，但并不在所有形式的智力上同样显著。

‍

这意味着，如果你用旧的标准给现代人做一套老版智商测试，他们的分数可能会明显高于100。并不一定是人类大脑突然“开了涡轮模式”，而是环境变了：更好的教育、更充足的营养、更完善的医疗，以及对抽象问题解决的熟悉度，可能都在其中起了作用。

‍

这就是为什么智商测试必须重新校准。要是没这么做，“平均值”就会一路往上飘，最后失去“平均”的意义。换句话说，只要测试会更新，100 才能保持稳定，就像尺子会被重新校准。

‍

有趣的是，一些国家现在出现了弗林效应放缓，甚至回转。所以，就算分数长期上涨，也并非自然定律。智力研究还有个“坏习惯”：会惩罚那些太得意的人（不过说实话，这项“服务”挺有用）。

‍

平均IQ能告诉你什么——以及它绝对不能说明什么

相当多——前提是你保持自律。相反，如果你不做到，那远没有人想象的那么多。

‍

在个人层面，智商测试真的很有用。比如校心理师可能会用它来找出：为什么有的孩子读得很顺，却在工作记忆上卡得很严重；或者为什么另一个孩子需要更进阶的学业路线。在临床场景里，智商分数也可能是评估发育状况或认知衰退的一部分。这是现实的价值，不是那种“测量学装饰”。

‍

在小组层面，平均分能用来描述规律。但描述不等于解释。我们前面说过：一个组的平均值并不能告诉你为什么它会变成这样。这个区别非常关键。

‍

比如，报告中的研究总结显示，环境会强力影响智商结果。在一项著名的2003年研究里，Eric Turkheimer和同事发现：在贫困家庭中，共同环境对孩子智商差异的解释远超基因——这也是我们在“智力是否具有遗传性”文章里探讨的内容；而在富裕家庭中，遗传差异解释了更多的变异。这类发现，足以让任何阵营的人都先冷静下来想一想。

‍

社会环境也很重要。克劳德·斯蒂尔和乔舒亚·阿伦森早就用经典研究表明：当人们担心“证实自己群体的负面刻板印象”时，刻板印象威胁会压低测试表现。所以，在我们还没说那些关于种族、国家或“文明智力”的巨大结论（这本身就很不妙）之前，你得先承认一件基本事实：测试表现并不是在真空中产生的。

‍

这就是为什么一提到智商被当成命运，我就觉得不安。科学并不支持这一点。智商确实衡量了真实且重要的东西，但它并不能以任何完整的方式衡量你的价值、创造力、善良、判断力，或你未来会怎样。它只是一个工具——有时还挺锋利。但终究还是一个工具。

‍