平均IQってなに？シンプルな答えと、ややこしい真実

平均IQは100です。これは公式の答えで、教科書の答えで、そして多くのサイトが最初の1文であなたに突きつける答えです。

‍

それに、賢い人たちが警戒するような答えでもあります。ほとんど〜すぎるくらいきれいに聞こえるから。正直、あなたの疑いは健全です。

‍

ここでポイント。IQは平均身長みたいに、たくさんの人を測って「数字が出る」ものではありません。今どきのIQテストは、標準化の対象集団で平均点が100になるように調整されています。つまり100は、自然が山に彫り込んだ謎の事実ではなく、テスト開発者が作った基準点です。だから点数の意味を読み取りやすくなっています。

‍

それはIQが「偽物」や「役に立たない」って意味じゃないよ。もっと良い質問の仕方が必要ってこと。「平均IQはどれくらい？」じゃなくて、「誰にとっての平均？」「どのテストで？」「どの時点の基準で揃えて？」「何の集団と比べて？」って聞くんだ。そうしてみると、このテーマは一気にずっと面白くなるよ。

‍

テストがそう作られているから、平均が100になるんだよ。

初期のIQテストは、現代のテストとは少し仕組みが違います。フランスで行われたアルフレッド・ビネーの研究（「知能とIQテストの歴史」で詳しく紹介中）は、追加の学習サポートが必要かもしれない子どもを見つけることが目的でした。そして、その後にウィルヘルム・シュテルンやルイス・ターマンによって広まった古い方式では、次の「精神年齢」計算が使われていました。精神年齢 ÷ 暦年齢 × 100。これは子どもにはある程度うまく機能しましたが、大人になると一気に扱いづらくなります。だって「精神年齢」って、家族の食卓で計算したいものではありませんよね。

‍

現代のIQテストは、心理学者が偏差IQと呼ぶ方法を使います。10歳の子が12歳のように考えるかどうかを聞く代わりに、今のテストでは同年齢の人たちの大規模な標準化データと、あなたの結果を比べます。さらに、生の点数を変換して分布の平均を100にし、通常は標準偏差を15にします。

‍

医療の標準ケアの説明によれば、現代のIQスコアは平均100・標準偏差15の正規分布に変換されます。Psych Centralも2022年の総まとめで同じことを述べていて、平均と中央値はいずれも100に設定されています。なので、誰かに「一般的な答えは？」と聞かれたら、答えは100でOKです。

‍

なぜ100？ほとんどが「使いやすいから」です。ちょうどいい中間点で、直感的に「100より上は平均以上」「100より下は平均以下」と理解できます。もし演出したい気分なら、テスト開発者は500を選んだかもしれません。でも幸いなことに、そうはしませんでした。

‍

だから「平均IQは85〜115の間」という言い方も、ちょっとだけ雑なんです。厳密に言うと、平均は100。85〜115の幅は、平均レンジで、多くの人が当てはまるゾーンのこと。

‍

スコアが意味することを、わかりやすく解説します

IQスコアが100を中心にしていると分かったら、次に役立つのは「広がり」です。多くの主要なIQテストは標準偏差15点を使っています。これで、いわゆる釣り鐘型（ベルカーブ）の分布がとても分かりやすくなります。

‍

およそ68%の人が85〜115の範囲にスコアします。約95%は70〜130です。130以上はたった約2%で、70未満も同じくらい少数です。だから130は「非常に優れた能力」の目安として使われることが多く、70未満は知的障害の評価の一部になる場合があります。ただ、医療従事者はIQだけで知的障害を診断しません。適応機能——日常生活をどれだけうまく回せているか——も同じくらい重要です。

‍

ここでもパーセンタイルが役立ちます。IQ 100はだいたい50パーセンタイル。IQ 115は84パーセンタイル前後。IQ 130は98パーセンタイル前後です。つまり誰かが「IQ 130だ」と言っても、100問中130問正解したわけではありません（算数的にかなり無理があります）。そうではなく、基準となる集団の約98%より高いスコアだと言っているんです。

‍

パーセンタイルを理解すると、有名なベルカーブが“難しい統計の壁紙”に見えなくなって、地図みたいに感じられるようになります。そこで次の疑問です：実データって、実際にそんな動きをするんでしょうか？

‍

ベルカーブはただの作り話じゃないよ

オンラインであの有名な「ベルカーブ」みたいな図を見かけたことがあるはずです。たいてい、ひどい意見の横に表示されていますよね。ムカつく話ですが、その基本の形自体は本物です。

‍

IQテストは、だいたい正規分布になるように設計されていて、実際にもたいていそうなります。2023年に国ごとの平均IQ推定に関するややこしい文献を見直したリチャード・ウォーンは、IQデータは統計的に概ね問題なく振る舞うため、平均を計算しても通常の前提を大きく崩さないと主張しました。地味に聞こえるかもしれないけど、重要です。つまり、平均点についてちゃんと筋の通った話ができるんです。

‍

人がステレオタイプを持つ集団でも、この傾向は見えてきます。ADHD、読みの困難、またはその両方のある子どもを対象にした研究で、心理学者のBonnie Kaplanと同僚は、3つのグループすべてで推定したFull-Scale IQの分布が、正規分布と有意に異ならないことを見つけました。しかも、半数以上の子が平均的な範囲に入っていたんです。結論は、すごく率直でした。ADHDの子どもは、他の子より平均以上のIQになりやすいわけではないのです。

‍

この研究が好きなのは、2つの思い込みを一気に突き破ってくれるから。まず、ベルカーブは想定どおりのところに出てきます。次に、臨床ラベルが勝手に「その人の知能」を教えてくれるわけじゃない。リアルな人間は、ネットのステレオタイプに頑固にハマろうとしないんです（まったく、困ったものだね）。

‍

さあ面倒なところ：実際のグループはいつも平均100とは限らない

IQテストを100に基準（標準化）してるなら、なぜ「アメリカの平均はだいたい97」とか「世界平均IQは約89」って見かけるの？公式の答えは間違いなの？

‍

いいえ。けどここがポイントで、平均IQという言葉の意味が変わります。

‍

作家が「国の平均IQ」を語るとき、だいたいは異なるサンプル、別の年、別のテスト、そして時にはかなり怪しい方法のデータをまとめていることが多いです。テストに最初から組み込まれている「100の標準化スコア」とは、同じものではありません。

‍

たとえばPsych Centralは、2019年のアメリカの平均IQが97.43だという推定を挙げています。これはありえない数字ではありませんが、「天気予報みたいに空中に漂う、アメリカ人の永遠の特性」ってわけでもないんです。大事なのは、その推定がどう作られたか、という点です。

‍

Warneの2023年のレビューが特に役立つのは、彼が対立する2つの陣営のどちらにも加わって、同じように叫ぶタイプではないからです。彼は、国別のIQデータセットが完璧だとも言いません。だからといって、価値がないとも言いません。彼は、これらの推計の中には「重要な何か」を捉えているものがあると主張しますが、一方で特にデータが乏しい、または古い国では大きな品質の問題もあることを指摘しています。

‍

彼の印象的な観察の1つは、複数のサンプルから出した国ごとの推定値は平均でだいたい5.8ポイントしか違わないことが多い、という点です。とはいえ、古いサンプルや質の低いサンプルが全体の見え方を歪めてしまい、20ポイント以上のズレを見せる国もあります。さらに、前提によっては、ある物議を醸すデータセット1つから計算した世界平均が86.7〜88.3あたりに落ち着くことも示しました。今、頭が沸騰してるかも。じゃあ人類の「本当の」平均IQは、100じゃないってこと？まだ早い。

‍

ワーンが強調するように、IQは知能そのものではなく「測定値」です。そしてグループ平均では、違いが教育、栄養、健康、テストへの慣れ、言語、サンプリングの偏り、あるいは別の要因から来ているのかは分かりません。さらに、それで誰かの生まれ持った潜在能力まで分かることは決してありません。私はこの点を特に重要だと感じます。なぜなら、IQに関する世間の議論は、しばしば根拠のあいまいな数字から、たった12秒ほどで文明に関する壮大な理論へ一気に突っ走るからです。そんなのは科学じゃありません。Wi‑Fiにつながったカフェインです。

‍

「いつの平均と比べて？」フリン効果がすべてを変える

平均IQがブレやすい理由は、もうひとつあります。比較対象のグループが時間とともに変わっていくからです。

‍

20世紀の大半にわたって、多くの国でIQテストの生のスコアが上昇しました。この傾向は研究者ジェームズ・フリンにちなんで、フリン効果（Flynn effect）と呼ばれています。『Standard of Care』の要約では、1つの目安として「1つの10年あたり約3ポイント」とする古典的な推定が紹介されており、さらにドシエで検討された幅広い研究文献では、その効果はTrahanらによる2014年のメタ分析で「10年あたり約2.93ポイント」とされています。加えて、PietschnigとVoracekによる2015年のその後のメタ分析でも幅広い向上が見つかりましたが、知能のあらゆる種類で同じように増えたわけではありません。

‍

つまり、古い基準で古いIQテストを現代の人に受けさせると、100よりかなり高く出ることがあります。人間の脳が急に「ターボモード」になったからではなく、環境が変わったためです。たとえば、より良い教育、栄養、医療、そして抽象的な問題解決に慣れていることなどが影響した可能性があります。

‍

だからこそ、IQテストは再標準化が必要なんだ。もしそれをしないと「平均」が上にズレていって、本来の平均の意味を失う。つまり、テストが更新されるからこそ100は安定する。定規の目盛りが再調整されるのと同じだよ。

‍

面白いことに、今では一部の国でフリン効果が鈍化したり、さらには逆転さえ見られます。つまり、スコアが長く伸び続けるのも「自然の法則」ではありません。知能研究って、ちょっとでも偉そうになる人を容赦なく“罰する”っていう厄介な癖があるんです（とはいえ、それって役立つサービスでもありますよね）。

‍

平均IQが教えてくれること—そして絶対に言えないこと

かなりあるよ、でも規律を守ればね。逆に、守らなければ人が望むほどには、ほとんど増えないよ。

‍

個人レベルでは、IQテストは本当に役立つことがあります。学校の心理士なら、「ある子は流暢に読めるのに作動記憶が大の苦手なのはなぜか」や、「別の子にはもっと上の学術コースが必要なのはなぜか」を見極める助けに使えるかもしれません。クリニックでは、IQスコアが発達上の状態や認知の低下を評価する要素のひとつになることもあります。これは“飾り”ではなく、現実の価値です。

‍

集団レベルでは、平均点は傾向を表せます。でも、それは説明ではありません。さきほど、集団の平均ではその平均がそうである理由までは分からないと言いました。この違いはとても重要です。

‍

たとえば、この資料にまとめられた研究では、環境がIQの結果に大きく影響できることがわかっています。2003年の有名な研究で、エリック・ターメイヒマーと同僚たちは、貧しい家庭では、子どものIQのばらつきの多くが「共有された環境」が原因であり、遺伝よりも説明力が高いことを見つけました。これは知能は遺伝するのかを扱う記事で私たちが掘り下げるテーマです。一方で、裕福な家庭では遺伝的な違いが、より多くの分散を占めていました。こうした発見のひとつは、どんな思想チームにいる人にも、少し立ち止まって考えさせるべきものです。

‍

社会的な文脈も大事です。クロード・スティールとジョシュア・アロンソンは、有名に「ステレオタイプ脅威」が、人々が自分たちの集団について否定的なイメージを裏づけるのを恐れるとテスト成績を落とし得ることを示しました。だから人種や国、あるいは「文明の知能」みたいな大きな主張に入る前に、まず認めないといけないことがあります。テスト成績は、真空の中で生まれるわけじゃないんです。

‍

だからこそ、IQが運命みたいに扱われると不安になるんだ。科学はそれを支持していないよ。IQは確かに現実で大事なものを測るけど、あなたの価値や創造性、優しさ、判断力、未来を“完全に”測れるわけじゃない。これはただの道具。鋭いこともある。でも結局は道具にすぎない。

‍

あなたが本当に覚えておくべき答え

もし誰かが食事中にあなたを口止めして、「平均のIQっていくつ？」って聞いてきたら、安心してこう言えます：現代の標準化IQテストなら100。

‍

でも今なら、その奥にある「正しい答え」が見えてるはず。100は人類についての魔法みたいな真実じゃなく、調整された中心値です。多くの人のスコアは85〜115の範囲に入ります。スコアは釣り鐘型（ベルカーブ）で分布します。国や対象のサンプル、時代によって、実際の平均は変わり得ます。そしてその違いの意味を読み解くのは、ネットが言いたいほど簡単じゃないことが多いんです。

‍

だから次にネットで「衝撃的なIQ！」みたいな主張を見かけても、数字を見つめるだけはやめて。うるさいくらいに次の4つを聞いてみて：誰がテストされたの？どのテストで測ったの？どんな基準（ノーム）と比べたの？それは何の目的でやったの？バーベキューに誘われなくなるかもだけど、理解は一気に深まるよ。

‍

それが、僕にとって知能研究で一番面白いところなんだ。数字はキレイに見える。でも現実は最高に不便で厄介。

‍