평균 IQ는 100이에요. 이게 공식 답이고, 교과서 답이며, 대부분의 웹사이트가 첫 문장에서 던지는 답이죠.

이런 답은 똑똑한 사람들도 의심하게 만들죠. 거의 너무 깔끔하게 들리거든요. 솔직히 말해, 당신의 의심은 건강한 거예요.

여기 비밀이 있어요: IQ는 평균 키처럼 여러 사람을 재고 숫자를 “찾는” 게 아니에요. 요즘 IQ 테스트는 규모화되어, 표준 집단의 평균 점수가 100이 되게 맞춰져 있죠. 즉 100은 자연이 산에 새겨둔 신비한 사실이 아니에요. 점수 해석이 쉬워지도록 검사 설계자들이 만든 기준점입니다.

그렇다고 IQ가 가짜거나 쓸모없다는 뜻은 아니야. 더 좋은 질문을 던져야 한다는 의미지. “평균 IQ가 뭐야?”가 아니라 “누구 기준의 평균이고, 어떤 검사에서, 언제 표준화됐으며, 어떤 집단과 비교한 값이야?” 이걸 묻는 순간, 주제가 훨씬 더 흥미로워져.

검사가 그렇게 만들어져 있어서 평균이 100이에요.

초기 IQ 검사는 현대 테스트와는 좀 달랐어요. 프랑스에서 알프레드 비네가 처음 시작한 연구는(저희 글 지능과 IQ 테스트의 역사에서 자세히 다뤘죠) 추가 교육 지원이 필요할 수 있는 아이들을 찾아내는 데 초점이 맞춰져 있었고요. 이후 빌헬름 슈테른과 루이스 터먼이 널리 알린 옛 방식은 ‘정신연령 공식’을 썼습니다. 정신연령을 실제 나이로 나눈 뒤 100을 곱하는 방식이었죠. 이 방법은 아이들에게는 꽤 잘 맞았지만, 성인이 되면 금방 어색해졌어요. 성인에게서 “정신연령”은 가족 식탁에서 계산해보고 싶은 종류의 값은 아니니까요.

현대 IQ 테스트는 심리학자들이 말하는 편차 IQ를 사용해요. 오늘날은 10살이 12살처럼 생각하는지를 묻기보다, 같은 나이의 큰 표준 집단과 비교해서 당신의 수행을 평가하죠. 그리고 원점수는 변환되어 분포의 평균이 100이 되고 보통 표준편차는 15가 되도록 맞춥니다.

의료 가이드라인인 Standard of Care에 따르면, 최신 IQ 점수는 평균 100, 표준편차 15인 정규분포로 변환됩니다. Psych Central도 2022년 개요에서 같은 점을 짚었죠. 평균과 중앙값은 100으로 설정됩니다. 그래서 질문이 “관례적인 답”을 요구한다면, 정답은 100이에요.

왜 100일까요? 대부분은 편해서예요. 딱 맞는 중간값이고, 사람들도 숫자가 100보다 크면 평균보다 높고, 100보다 작으면 평균보다 낮다는 걸 직관적으로 이해하죠. 만약 테스트 제작자들이 좀 과시하고 싶었다면 500을 골랐을 수도 있지만, 다행히 그렇게 하진 않았어요.

이런 이유로 “평균 IQ는 85에서 115 사이다”라는 말도 조금 부정확해요. 엄밀히 말하면 평균은 100이에요. 85~115의 범위는 평균 범위로, 많은 사람들이 여기에 속한다는 뜻이죠.

점수가 무슨 뜻인지 쉽게 설명해줄게요

IQ 점수가 평균 100에 맞춰져 있다는 걸 알게 되면, 다음으로 유용한 건 ‘분포(퍼짐 정도)’예요. 대부분의 주요 IQ 테스트는 표준편차를 15점으로 잡습니다. 그러면 종 모양 그래프(벨 커브)를 한눈에 파악하기 쉬운 지도처럼 사용할 수 있죠.

대략 68%의 사람들은 85~115점에 해당해. 약 95%는 70~130점 사이고, 130점 이상은 약 2% 정도만 나와. 70점 미만도 비슷하게 소수의 비율이야. 그래서 130점은 흔히 ‘매우 우수한 수행’의 대략적인 기준으로 쓰이고, 70점 이하는 지적장애 평가의 한 부분이 될 수 있어. 하지만 임상의는 IQ만으로 지적장애를 진단하진 않아. 적응 기능, 즉 누가 일상생활을 얼마나 잘 해내는지도 중요하거든.

여기서도 백분위가 도움이 돼요. IQ 100은 대략 50번째 백분위예요. IQ 115는 약 84번째, IQ 130은 약 98번째 백분위죠. 그래서 누가 IQ 130이라고 말할 때, 100문항 중 130문항을 맞혔다는 뜻이 아니에요. 그건 산수적으로도 말이 안 되는 일이니까요. 대신 ‘규준 집단의 약 98%보다 높은 점수’를 받았다는 의미예요.

백분위(퍼센타일)를 이해하면 유명한 종(bell) 곡선이 추상적인 통계 배경화면처럼 보이지 않고, 지도처럼 딱 보이기 시작해요. 그러면 다음 질문이 따라오죠: 실제 데이터도 정말 그렇게 움직일까요?

종 모양 곡선은 신화가 아니야

온라인에서 흔히 떠돌아다니는 그 유명한 종(bell) 곡선 그래픽을 아마 봤을 거야. 보통은 별로인 의견 옆에 붙어 있곤 하니까 짜증나긴 하지만, 기본 형태 자체는 사실이야.

IQ 테스트는 대체로 정규분포에 가깝게 나오도록 설계됐고, 실제로도 보통 그렇습니다. 리처드 워른은 2023년에 국가별 평균 IQ 추정치에 관한 까다로운 연구들을 검토하면서, IQ 데이터가 통계적으로 대체로 잘 작동해서 평균을 계산해도 일반적인 가정을 깨지 않는다고 주장했어요. 조금 건조하게 들리지만, 중요한 포인트가 있습니다. 그래도 평균 점수에 대해 말이 되게 해석할 수 있거든요.

이런 경향은 사람들이 집단을 두고 흔히 하는 고정관념에서도 그대로 보이죠. ADHD가 있거나 읽기 어려움이 있거나, 둘 다인 아이들을 대상으로 한 연구에서 심리학자 본니 캐플런과 동료들은 세 그룹 모두의 추정 FSIQ 분포가 정규분포와 유의미하게 다르지 않다는 걸 확인했어요. 절반이 넘는 아이들이 평균 범위에 들어갔죠. 결론은 시원할 정도로 단호했습니다. ADHD가 있는 아이들이 다른 아이들보다 평균보다 높은 IQ를 가질 가능성이 더 크지 않다는 거예요.

이 연구가 마음에 드는 건, 한 번에 두 가지 ‘오해’를 뚫어버리기 때문이야. 첫째, 종(bell) 곡선이 우리가 예상하는 곳에 그대로 나타나고. 둘째, 임상 진단 같은 라벨이 마법처럼 누군가의 지능을 알려주진 않아. 현실 사람들은 인터넷 고정관념에 끝까지 안 맞춰—(정말 무례하지만 말이야).

이제 지저분한 부분인데요: 실제 집단은 항상 평균이 100이 되진 않아요.

IQ 테스트가 표준(평균)을 100으로 맞춘 거라면, 왜 가끔 미국 평균이 약 97이고 “세계 평균 IQ”가 약 89라고 보게 될까요? 공식 답이 틀린 건가요?

아니요. 하지만 여기서 문구인 평균 IQ의 의미가 달라져요.

작가들이 한 나라의 평균 IQ를 말할 때는 보통 서로 다른 표본, 다른 연도, 다른 검사, 그리고 경우에 따라 꽤 의심스러운 방법의 데이터를 섞어 계산하는 경우가 많아요. 이건 테스트에 기본으로 들어간 100의 표준화 점수랑은 완전히 달라요.

예를 들어 Psych Central은 2019년에 미국 평균 IQ가 97.43이라고 추정했어요. 이 수치가 불가능하진 않지만, 미국인들이 마치 일기예보처럼 공중에 떠 있는 ‘영원한 고유값’은 아니죠. 그 값이 어떻게 계산됐는지에 따라 달라져요.

Warne의 2023년 리뷰는 특히 여기서 유용해요. 그는 서로 반대편 언덕에서 외치는 어느 한 진영에도 합류하지 않거든요. 국가 IQ 데이터셋이 완벽하다고 말하지도 않고, 그렇다고 완전히 쓸모없다고 말하지도 않아요. 그는 이런 추정치 중 일부가 “중요한 무언가”를 담아낼 수는 있다고 주장하면서도, 특히 데이터가 드물거나 오래된 나라들에서는 큰 품질 문제가 있다고 짚습니다.

그의 눈에 띄는 관찰 중 하나는, 여러 표본으로 낸 국가별 추정치가 평균적으로는 대개 약 5.8점 정도만 차이 난다는 거예요. 하지만 어떤 나라는 20점이 넘는 차이를 보이기도 하는데, 오래됐거나 품질이 낮은 표본 하나가 전체 그림을 왜곡하기 때문이죠. 또 그는 가정에 따라, 논란이 되는 한 데이터셋으로 계산한 전 세계 평균이 대략 86.7에서 88.3 사이에 놓일 수도 있음을 보여줬어요. 지금 머릿속이 뜨거워질지도 모르겠네요. 그럼 인류의 “진짜” 평균 IQ는 100이 아니란 말인가요? 아직은 아니에요.

워너가 강조하듯이 IQ는 지능 그 자체가 아니라 **측정값**이야. 그리고 집단 평균만으로는 차이가 교육, 영양, 건강, 검사에 대한 익숙함, 언어, 표본 편향 같은 요인 때문인지—아니면 다른 이유인지—알 수 없어. 무엇보다도 누군가의 타고난 잠재력은 전혀 알려주지 못하지. 이 점이 특히 중요하게 느껴지는 건, IQ에 대한 대중 논의가 종종 **불안한 숫자 하나**에서 **문명 전체에 대한 거창한 이론**으로 약 12초 만에 질주하듯 넘어가기 때문이야. 그건 과학이 아니야. Wi‑Fi 연결된 카페인이지.

무엇과 비교해서 평균일까요? 플린 효과가 모든 걸 바꿔요

평균 IQ가 쉽게 흔들리는 또 다른 이유가 있어요. 바로 비교 집단이 시간이 지나며 달라진다는 점이죠.

20세기 대부분 동안, 많은 국가에서 IQ 테스트의 원점수가 전반적으로 상승했어요. 이런 패턴은 연구자 제임스 플린의 이름을 딴 플린 효과로 알려져 있어요. ‘Standard of Care’ 요약에서는 대략 10년마다 IQ 3점 정도가 오르는 고전적 추정을 언급하고, 문서에서 검토한 더 폭넓은 연구 문헌은 이 효과가 Trahan과 동료들의 2014년 메타분석에서 10년당 약 2.93점이라고 제시해요. 이후 Pietschnig와 Voracek의 2015년 메타분석도 전반적인 향상을 확인했지만, 지능의 모든 형태에서 똑같이 나타나지는 않았어요.

즉, 예전 기준의 오래된 IQ 테스트를 현대인에게 그대로 적용하면 100점보다 눈에 띄게 높게 나올 수도 있어요. 뇌가 갑자기 ‘터보 모드’로 진화해서라기보단, 환경이 달라졌기 때문이죠. 더 나은 교육, 영양, 의료, 그리고 추상적인 문제 해결에 대한 익숙함이 전부 영향을 줬을 가능성이 커요.

그리고 이게 바로 IQ 테스트는 다시 표준화(재보정)되어야 하는 이유예요. 안 그러면 ‘평균’이 점점 위로 올라가서, 더 이상 평균이라고 할 수 없게 되죠. 즉 100은 테스트가 업데이트되기 때문에 그대로 안정적으로 유지돼요. 자(측정기)도 다시 맞춰(재교정)지는 거예요.

흥미롭게도 몇몇 나라는 플린 효과가 둔화되거나 심지어 되돌아가는 모습을 보이기도 해. 그래서 점수의 긴 상승도 자연의 법칙은 아니지. 지능 연구는 너무 자만해지는 사람을 골탕 먹이는 데 좀 악질적인(?) 습성이 있어(사실 공정하게 말하면, 그건 꽤 유용한 서비스지).

평균 IQ가 알려줄 수 있는 것과, 절대 못하는 것

꽤 많이요. 하지만 꾸준히 훈련한다면요. 그리고 그만큼은 바라지 못해요—방해되는 행동을 하면요.

개인 수준에서는 IQ 검사가 정말로 도움이 될 수 있어요. 예를 들어 학교 심리사가 “어떤 아이는 읽기는 유창한데 작업 기억은 유독 힘들어하는 이유”를 파악하거나, “다른 아이는 더 심화된 학업 트랙이 필요한 이유”를 찾는 데 활용할 수 있죠. 클리닉에서는 IQ 점수가 발달 관련 상태나 인지 저하를 평가하는 여러 요소 중 하나로 쓰이기도 해요. 이건 겉치레용 심리측정 장식이 아니라, 실제로 의미 있는 가치예요.

집단 수준에서는 평균 점수가 패턴을 설명할 수 있어요. 하지만 설명은 곧 원인 설명이 아니죠. 앞에서 집단 평균만으로는 그 평균이 왜 그런지(“why”)를 알려주지 않는다고 했어요. 이 구분은 정말 중요해요.

예를 들어, 자료집에 정리된 연구들은 환경이 IQ 결과에 큰 영향을 줄 수 있다는 걸 보여줘요. 2003년의 유명한 연구에서 에릭 터크하이머와 동료들은 가정형편이 어려운 집에서는, 아이들의 IQ 변화를 설명할 때 유전보다 **공유된 환경**이 훨씬 더 큰 비중을 차지한다는 것을 발견했죠. 이 주제는 우리가 지능이 유전되는지를 다룬 기사에서 더 자세히 살펴봐요. 반면, 경제적으로 여유로운 집에서는 유전적 차이가 더 많은 변이를 설명했어요. 이런 결과는 어떤 진영이든 잠깐 멈춰서 생각하게 만드는 것 중 하나예요.

사회적 맥락도 중요해요. 클로드 스틸과 조슈아 애런슨은 사람들이 자기 집단에 대한 부정적 고정관념을 확인하게 될까 봐 걱정하면, ‘고정관념 위협’이 시험 성과를 떨어뜨릴 수 있다는 걸 유명하게 보여줬죠. 그러니까 인종, 국가, 또는 ‘문명적 지능’ 같은 과장된 주장에 들어가기 전에도(이미 좋지 않은 신호예요), 기본부터는 인정해야 해요: 시험 성과는 진공 상태에서 만들어지지 않아요.

그래서 IQ를 운명처럼 다루는 게 불편해. 과학은 그걸 뒷받침하지 않아. IQ는 분명 중요하고 실제인 무언가를 재지만, 네 가치나 창의성, 친절함, 판단력, 미래를 완전하게 측정하진 못해. 그건 하나의 도구야. 가끔은 날카로운 도구일 뿐. 그래도 결국 하나의 도구지.

진짜로 기억해야 할 답은 이거야

누군가 저녁 식사 자리에서 당신을 궁지로 몰며 “평균 IQ가 얼마예요?”라고 묻는다면, 이렇게 단호하게 말해도 돼요: 현대 표준 IQ 테스트 기준 100.

하지만 이제 그 아래에 숨어 있던 더 정확한 답을 알게 됐지. 100은 인간 종에 대한 마법 같은 진실이 아니라, 보정된 기준점이야. 대부분은 85~115 사이에서 점수를 받아. 점수는 종 모양 곡선을 이뤄. 나라, 표본, 시대에 따라 관측되는 평균은 달라질 수 있고, 이런 차이의 의미는 인터넷이 바라는 것보다 훨씬 해석하기가 어려운 경우가 많아.

다음에 온라인에서 충격적인 IQ 주장 보이면, 숫자만 멍하니 보지 마. 짜증 나게(?) 네 가지 질문을 해봐: 누가 테스트됐는지, 어떤 검사로 했는지, 어떤 기준(규범)과 비교했는지, 그리고 목적이 뭐였는지. 사람들이 바비큐에 널 안 부를 수도 있지만, 너의 이해는 확 달라질 거야.

제게 지능 연구에서 가장 흥미로운 부분은 이거예요. 숫자는 깔끔해 보이지만, 현실은 정말 골치 아프도록 번거롭죠.