통계적 소양 없으면 AI 시대에 눈 뜨고 당한다

평균 연봉 4,500만원이라는데 직장인 80%는 그 아래다. “평균”이라는 숫자 하나가 현실을 가리고 있었다.
정부 통계, AI 추천, 뉴스 속 숫자까지. 누가 만들었는지 따지면 전혀 다른 그림이 보인다.
숫자를 읽는 힘이 없으면 AI 시대에 눈 뜨고 당한다. 7가지 습관으로 방어할 수 있다.

통계적 소양, 숫자가 당신을 속이고 있었다

“평균 연봉 4,500만원.”

2026년 2월, 이 숫자가 뉴스에 떴다.
직장인 커뮤니티가 들끓었다.
“나만 빼고 다 잘 버는 건가?”
설 연휴 밥상에서도 이 숫자가 화제였다.

그런데 이상한 점이 하나 있었다.
통계를 조금만 더 들여다본 사람들은 전혀 다른 숫자를 발견했다.

중위 연봉 3,417만원.
월 285만원.

전체 직장인을 소득순으로 줄 세웠을 때, 딱 중간에 선 사람의 연봉이다.
평균보다 1,083만원이나 낮다.
직장인 10명 중 8명이 그 “평균”에도 못 미친다.
상위 0.1%인 2만 명의 평균 연봉이 9억 9,937만원이어서, 이 극소수가 전체 평균을 끌어올리고 있었던 것이다.

(동아일보, 2026.02.19 / 리포테라, 2026.02.20)

이 이야기를 듣고 조합해보니, 한 가지 발견이 있었다.
“평균”이라는 단어 하나가 국민 80%의 현실을 지우고 있었다.
그리고 이런 식으로 숫자가 현실을 덮어버리는 일은 연봉에서만 벌어지는 게 아니었다.

당신의 연봉은 평균 아래였다. 그게 정상이다

이 대목을 좀 더 파보았다.

옥스팜(Oxfam)이 2026년 2월 발표한 보고서에 따르면, 한국의 소득 상위 10%와 하위 40%의 소득 격차는 2009년 2.4배에서 2023년 4.1배로 벌어졌다.
하위 50% 근로자의 평균 연봉은 1,771만원.
월 147만원에 불과했다.

(Daum, 2026.02.23 옥스팜 보도)

여기서 이상한 구조가 보인다.
정부와 기업은 왜 하필 “평균”을 발표할까?
중위값을 같이 내놓으면 될 텐데.

이 질문을 따라가 보니 이유가 있었다.
평균은 성장을 보여주기에 유리하다.
상위 소득이 올라가면 하위가 제자리여도 평균은 올라간다.
“경제가 성장하고 있다”는 메시지를 만들어내기에 평균은 중위값보다 훨씬 편리한 도구인 것이다.

반대로 중위값은 불편하다.
국민 절반이 월 285만원 이하를 번다는 사실은 어떤 정권에게도 좋은 성적표가 아니니까.

정부가 숫자를 마사지한 흔적

연봉 통계에서 시작한 추적이 더 깊은 곳으로 이어졌다.
통계 자체가 조작되었다는 의혹이 나온 사건이 있었다.

2022년, 감사원은 문재인 정부 시절 통계청이 소득분배지표를 의도적으로 왜곡했다고 주장하며 감사를 시작했다.
감사원 측 논리는 이랬다.
“소득주도성장이 실패하고 있다는 수치가 나올 것을 예상하고, 가중값을 임의로 바꿔서 소득이 늘어난 것처럼 만들었다.”

(한국경제, 2023.09.15)

그런데 이 이야기를 더 추적하니 반대쪽에서 전혀 다른 풍경이 보였다.

법원에서 통계청 실무자 대다수가 무죄를 받았다.
2026년 1월에는 감사원이 카카오톡 메시지를 짜깁기해서 증거로 사용한 사실까지 드러났다.
재판에 제출된 녹취록에는 부동산원 직원들이 “감사관이 통계조작으로 결론을 정해놓고 소설을 쓰고 있다”고 말하는 대목도 있었다.

(한겨레, 2026.01.29 / 뉴시스, 2025.10.21 / 미디어스, 2025.11.14)

이 사건들을 나란히 놓고 보니 발견한 것이 있다.
“통계를 조작했다”는 주장 자체가 또 다른 통계적 검증의 대상이었다.
한쪽은 “숫자를 꾸몄다”고 하고, 다른 쪽은 “감사가 증거를 꾸몄다”고 한다.
둘 다 데이터를 근거로 내세운다.
이 상황에서 시민이 판단하려면 결국 통계적 소양이 필요하다.
어느 쪽 주장이 데이터를 더 정직하게 다루고 있는지 분별하는 힘 말이다.

부동산 통계까지. “매주 발표되는 숫자”가 시장을 흔든다

같은 구조가 부동산에서도 발견되었다.

한국부동산원은 매주 아파트값 동향을 발표한다.
그런데 2025년 국정감사에서 이 주간 통계가 “시장을 왜곡한다”는 비판이 터졌다.

핵심은 이랬다.
이 통계는 실거래가가 아니라 호가(매도자가 부르는 가격)가 섞인 추정치다.
매주 “상승”이 보도되면 매수자들이 불안감에 뛰어든다.
그게 다시 실제 가격을 올리는 악순환이 생긴다는 것이다.

(비즈워치, 2025.10.24 / KBS, 2025.09.30)

정부 자체 연구용역에서도 “개선이 필요하다”는 결과가 나왔다.
실거래가 지수와 부동산원 주간 동향 사이에 괴리가 상당한 것으로 확인된 것이다.

여기서 보이는 패턴은 연봉 통계와 동일했다.
통계의 작성 방식 자체가 특정 방향으로 현실을 기울게 만드는 구조.
연봉에서는 “평균”이라는 도구가, 부동산에서는 “호가 포함 주간 추정치”라는 도구가 같은 역할을 하고 있었다.

“백신 맞고 사망” 보도. 시간순서가 원인은 아니다

통계가 공포를 만들어낸 사례도 있었다.

2021년, 코로나19 백신 접종이 시작되자 “접종 후 사망”이라는 뉴스가 쏟아졌다.
SNS에서는 “코로나보다 백신이 더 위험하다”는 주장이 퍼졌다.

그런데 이 주장에 쓰인 숫자를 추적해 보니 전혀 다른 그림이 나왔다.

AFP 팩트체크에 따르면, “백신 부작용 사망 2,700여 명”이라는 숫자는 인과관계가 확인된 수치가 아니라 접종 후 사망이 신고된 건수에 불과했다.
매일 수십만 명이 접종을 받으면 접종 여부와 상관없이 기저질환으로 사망하는 사람도 그 안에 포함된다.
“A 다음에 B가 일어났다”가 “A 때문에 B가 일어났다”를 뜻하지 않는다는 것이다.

(AFP 팩트체크, 2024.03.29 / 오마이뉴스, 2021.03.10)

통계학에서는 이걸 사후 귀인 오류라고 부른다.
아이스크림 판매량이 늘면 익사 사고도 늘어난다.
아이스크림이 익사를 유발하는 게 아니라 여름이라는 공통 원인이 있을 뿐이다.
하지만 이 구분을 하지 못하면 숫자가 만들어낸 공포에 삶의 선택이 좌우된다.

AI가 과거의 차별을 “학습”하고 있었다

여기까지 오니 더 큰 구조가 보이기 시작했다.
이 모든 통계적 함정이 AI라는 증폭기를 만나면 어떻게 되는가.

2018년, 아마존은 4년간 개발하던 AI 채용 시스템을 폐기했다.
이 AI는 이력서에 “여성”이라는 단어가 있으면 감점을 줬다.
과거 10년간 IT 업계에 남성 지원자가 압도적으로 많았던 데이터를 학습한 결과, AI가 스스로 “남성이 더 나은 지원자”라는 규칙을 만들어버린 것이다.

(BBC, 2018.10.11 / 경향신문, 2025.08.13)

한국에서도 비슷한 일이 벌어졌다.
쿠팡은 자사 PB 상품이 검색 상위에 노출되도록 알고리즘을 조작한 혐의로 공정위로부터 1,628억원의 과징금을 부과받았다.
소비자는 “인기 있으니까 1위”라고 믿었지만, 실제로는 쿠팡의 이익률에 따라 순위가 결정되고 있었다는 의혹이다.

(한겨레, 2026.01.19 / 서울경제, 2025.12.07)

그리고 유튜브.
2025년 연합뉴스 보도에 따르면, 유튜브 알고리즘이 이용자의 과거 시청 기록을 바탕으로 비슷한 성향의 콘텐츠만 반복 추천하면서 필터 버블을 형성하고 있었다.
이것이 정치적 양극화를 심화시키고 있다는 조사 결과가 나왔다.
진보 성향 영상을 2개만 더 봐도 추천 목록이 진보 채널로 도배됐다.

(연합뉴스TV, 2025.07.26 / 조선일보, 2025.04.23)

이 사례들을 조합하니 하나의 발견이 나왔다.
AI는 편향된 데이터를 넣으면 편향된 결론을 내놓는다.
그 결론이 다시 편향된 데이터를 만들어내는 순환 구조를 형성한다.
아마존의 성차별, 쿠팡의 검색 조작, 유튜브의 필터 버블.
겉으로는 다른 사건이지만 전부 “편향된 입력 → 편향된 출력 → 더 편향된 세계”라는 동일한 고리 위에 있었다.

말하지 않는 것이 말한 것보다 중요하다. 상위 구조

개별 사건들을 가능하게 만드는 구조를 데이터로 추적하니 세 개의 층이 보였다.

첫 번째 층은 교육 공백이다.

한국의 교과과정에서 “평균과 중위값의 차이”, “상관관계와 인과관계의 구분”, “표본 편향”을 체계적으로 다루는 시간은 수학 시간 일부에 불과하다.
OECD가 데이터 리터러시를 21세기 핵심 역량으로 꼽았지만, 대다수 시민은 뉴스 속 숫자를 비판적으로 읽는 훈련을 받은 적이 없다.

두 번째 층은 정보 비대칭이다.

원본 데이터는 정부, 기업, 플랫폼이 독점하고 있다.
시민에게는 가공된 요약본(평균, 증감률, 추천 순위)만 공개된다.
Forbes는 “AI 시대에 통계적 소양이 데이터를 가진 자와 데이터에 휘둘리는 자를 가른다”고 지적했다.
(Forbes, 2021.03.31)

세 번째 층은 알고리즘의 블랙박스다.

AI가 내린 결론의 근거를 일반인이 검증할 수 없다.
“왜 이 상품이 1위인지”, “왜 이 뉴스가 추천되는지” 물어볼 창구가 없다.
조선일보는 “인간에 오염된 데이터로 학습한 AI에서 편향 없는 결과는 불가능하다”고 보도했다.
(조선일보, 2023.11.04)

이 세 겹의 구조가 겹치면서 데이터를 만드는 쪽은 점점 더 정교해지고, 데이터를 읽는 쪽은 제자리에 머물러 있다.
이 격차가 벌어질수록 숫자로 사람을 움직이는 것은 더 쉬워진다.

예측되는 다음 상황

지금까지의 패턴을 조합하면 앞으로 벌어질 가능성이 높은 상황이 몇 가지 보인다.

예측 1. AI 생성 통계가 여론을 만드는 시대가 온다.

현재 AI는 텍스트와 이미지를 생성하는 수준이지만, 곧 “그럴듯한 통계 그래프”도 생성할 수 있게 된다.
이미 딥페이크 피해액이 2025년 한 해에만 11억 달러에 달했다는 보도가 나왔다.
가짜 통계가 실제 여론을 형성하고, 그 여론이 정책을 바꾸는 단계가 멀지 않았다.
(테크42, 2026.03.06)

예측 2. 플랫폼 간 “통계 전쟁”이 격화된다.

쿠팡, 네이버, 카카오 등 플랫폼은 각자의 알고리즘으로 “시장 점유율 1위”, “고객 만족도 1위” 같은 통계를 만들어낼 수 있다.
어떤 표본을 어떻게 잡느냐에 따라 결과가 완전히 달라지는 이 통계들을 소비자가 구분할 방법이 현재로서는 없다.

예측 3. 선거와 여론조사의 신뢰 위기가 심화된다.

2025년 대선 상황에서 유튜브 알고리즘이 정치적 필터 버블을 형성한다는 연구가 이미 나왔다.
(KCI 학술지, 2025)
ARS 여론조사의 응답 편향, 온라인 조사의 표본 편향이 결합되면 “여론조사 결과”와 “실제 민심”의 괴리가 더 커질 수 있다.

예측 4. “통계적 소양”이 계급을 나누는 요소가 된다.

데이터를 읽을 줄 아는 사람은 평균의 함정을 피하고, AI 추천을 의심하고, 뉴스의 인과관계 주장을 검증할 수 있다.
그렇지 못한 사람은 누군가가 가공한 숫자대로 판단하고, 소비하고, 투표한다.
이 격차는 소득 격차, 정보 격차와 겹치면서 더 깊어질 가능성이 있다.

숫자에 당하지 않기 위한 7가지 습관

여기까지 추적한 사건들과 구조들에서 뽑아낸, 일상에서 바로 쓸 수 있는 행동 지침이다.

습관 1. “평균”이 나오면 “중위값은?”이라고 묻는다.

평균 연봉, 평균 집값, 평균 자산.
이런 숫자가 보이면 반사적으로 중위값을 찾는다.
중위값이 함께 공개되지 않았다면 그 통계는 불완전한 것이다.
평균 연봉 4,500만원이라는 숫자 앞에서 “직장인 절반은 월 285만원 미만”이라는 사실을 아는 것과 모르는 것은 세상을 완전히 다르게 보게 만든다.

습관 2. “A 때문에 B”를 들으면 “C는 없는가?”를 따진다.

“백신 접종 후 사망”이 “백신 때문에 사망”이 아닌 것처럼, 두 사건이 시간 순서로 연결되어 있다고 원인과 결과는 아니다.
항상 “제3의 원인은 없는가?”를 확인한다.
아이스크림과 익사 사고의 공통 원인이 여름이었듯, 눈에 보이지 않는 변수가 있을 수 있다.

습관 3. 누가 이 통계를 발표했는지 확인한다.

제약회사가 자기 약의 효과를 발표할 때.
정부가 자기 정책의 성과를 발표할 때.
플랫폼이 자기 서비스의 만족도를 발표할 때.
발표 주체에게 유리한 방향으로 통계가 설계되었을 가능성을 의식한다.
“이 숫자를 발표해서 이득을 보는 사람은 누구인가?”가 핵심 질문이다.

습관 4. AI 추천을 “최선”이 아니라 “하나의 제안”으로 취급한다.

검색 1위 상품, 뉴스피드 최상단 기사, AI가 추천한 음악.
이것들은 “가장 좋은 것”이 아니라 “알고리즘이 당신에게 보여주기로 결정한 것”이다.
쿠팡의 1,628억 과징금 사건이 보여주듯, 추천 기준이 소비자의 이익이 아니라 플랫폼의 이익일 수 있다.
2페이지, 3페이지까지 넘겨보는 습관이 필터 버블을 깨는 첫걸음이다.

습관 5. 보이지 않는 데이터를 상상한다.

성공한 사람의 이야기만 듣고 “나도 저렇게 하면 되겠지”라고 생각하는 것은 생존자 편향이다.
2차 세계대전 때 돌아온 전투기의 총탄 자국만 보고 그 부위를 보강하려 했지만, 진짜 약한 부위는 돌아오지 못한 전투기에 있었다.
대학 중퇴 후 성공한 빌 게이츠 뒤에는 대학 중퇴 후 실패한 수백만 명이 있다.
“보이지 않는 쪽”을 떠올리는 것이 통계적 소양의 핵심이다.

습관 6. 내 믿음에 반하는 데이터를 의식적으로 찾는다.

자신이 믿고 싶은 정보만 찾는 것을 확증 편향이라 한다.
유튜브 알고리즘이 나와 같은 성향의 영상만 보여주는 필터 버블도 이 편향을 강화하는 구조다.
의식적으로 반대편 시각의 뉴스를 읽고, 내 가설이 틀릴 조건을 먼저 찾아보는 것이 균형 잡힌 판단의 출발점이다.

습관 7. “표본”이 누구인지 확인한다.

여론조사 결과를 볼 때 “누구에게 물었는가”를 본다.
ARS 조사는 휴대전화 이용자 위주라 고령층 비중이 달라진다.
온라인 조사는 인터넷 이용자로 한정된다.
어떤 설문이든 응답한 사람과 응답하지 않은 사람의 차이가 결과를 좌우한다.
“1,000명 대상 조사”라는 문구 뒤에 “어떤 1,000명인가?”를 묻는 것이 진짜 읽기다.


연봉 통계, 정부 지표, 백신 보도, AI 채용, 쿠팡 검색, 유튜브 추천, 부동산 시세.
이 모든 이야기를 모아서 조합해보니 결국 하나의 문장으로 수렴했다.

숫자는 사실이 아니라 누군가의 “선택”이다.

어떤 데이터를 모을 것인가.
어떤 방식으로 요약할 것인가.
어떤 맥락에서 발표할 것인가.
이 선택들이 쌓여서 “통계”가 된다.

그 선택을 읽어내는 힘이 바로 통계적 소양이고, AI 시대에 눈 뜨고 당하지 않는 유일한 방어벽이다.

이 글은 결론을 내리지 않는다.
데이터를 모으고 패턴을 보여주고 구조를 드러냈을 뿐이다.
판단은 이 글을 읽는 당신의 몫이다.

※ 본 글은 AI로 작성된 글이 섞여 있습니다. AI로 정리했지만 있는 객관적 사실을 연계해서 만든 자료입니다. (자료는 꽤 신뢰할 수 있게 만들었습니다.) 단 답으로 생각하지마시고 하나의 판단을 하는데 도와주는 글로 봐주세요. 판단은 본인이 하는것이고 재미있게 봐주세요.

최신글

댓글 남기기