통계와 여론은 예측·판단의 대표적 근거다. 통계·여론은 경제를 진단하고, 유권자의 표심을 가늠하는 핵심 잣대다. 한데 통계와 여론은 자칫하면 왜곡될 수 있다. 통계를 집계하거나 여론을 조사하는 것은 모집단의 성향을 파악하기 위한 목적이다. 따라서 표본은 무엇보다 모집단을 대표할 수 있어야 한다. 일반적으로 표본의 수가 클수록, 표본이 모집단에서 골고루 추출될수록 표본의 대표성은 커진다. 통계 결과나 여론조사 결과를 해석할 때 도 유의해야 한다.

표본은 무작위로 추출해야

통계·여론조사는 전수조사와 표본조사가 있다. 전수조사는 모집단 전부가 대상이고. 표본조사는 모집단 중 일부를 추출해 통계를 작성하거나 여론을 집계한다. 전수조사는 정확하지만, 비용이 많이 들어 현실에서는 거의 사용하지 않는다.

따라서 일반적으로 통계 여론조사를 할 때는 표본조사를 사용하는데 여기서 오류가 발생하기 쉽다. 무엇보다 표본을 어떻게 추출하느냐가 매우 중요하다. 첫째는 표본의 크기다. 표본이 모집단을 대표하려면 일정 규모 이상이 되어야 한다. 통상 모집단의 5%(응답자 비율 기준)가 기준이다. 모집단이 국민 고교생 중학생 지역구 주민 등 매우 클 때는 500명을 최소규모로 하고 있다. 즉 샘플이 500명이 안되는 표본조사는 의미가 없다는 말이다. 특히 한 두건의 사례를 두고 전체를 해석하면 곤란하다. 1960년대 미국의 한 대학에서 여학생 입학을 허용한 뒤에도 남녀분리론자들은 “여학생의 33.3%가 교수와 결혼했다”며 여학생 입학의 부작용을 지적했다. 비율로는 아주 많은 여학생이 교수와 결혼한 것처럼 느껴지지만 사실은 단 한 명이었다. 첫해 입학한 여학생이 세 명뿐이었기 때문이다. 이는 조금 극단적인 예이지만 표본이 너무 작으면 통계를 왜곡한다.

또 하나는 표본의 대표성이다. 표본이 이념·계층·학력·연령 등 어느 한 쪽으로 치우치면 모집단을 설명할 수 없다. 일반적으로 표본을 무작위 추출하는 것은 바로 이러한 편향을 배제하기 위한 목적이다. 1936년 미국 대선의 여론조사는 ‘표본의 대표성’을 일깨워주는 대표적 사례다. 당시 리터러리 다이제스트는 여론조사를 통해 공화당 랜던 후보가 57%의 지지율로, 43%에 그친 루스벨트 민주당 후보에 압승할 것으로 예상했다. 예측은 크게 빗나갔다. 결과는 루스벨트가 61%의 득표율로 완승했다. 왜 이런 결과가 생겼을까. 당시 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론을 조사했다. 한데 당시 전화·자동차를 보유한 부유층은 대부분 공화당 지지자였다. 표본이 모집단을 대표하지 못한 것이다.

평균의 함정·증가율의 함정

통계나 여론조사 결과를 바르게 이해하는 것도 중요하다. 그 중 하나가 ‘평균의 함정’이다. 평균을 정확히 이해하려면 산술평균, 중앙값, 최빈값을 두루 알아야 한다. 우리가 흔히 쓰는 것은 산술평균이다. 7명의 점수가 각각 1, 1, 2, 3, 1, 3, 3라면 산술평균은 7명 점수의 합(14)을 사람 숫자(7)로 나눈 값, 즉 2점이다. 이 평균은 나름 대표값을 잘 나타낸다고 할 수 있다. 한데 1, 1, 2, 3, 1, 3, 17 이라면 17이라는 유독 큰 숫자가 산술평균을 끌어 올리는 역할을 해 산술평균(4점)이 대표값 역할을 하지 못한다. 이게 바로 평균의 함정이다. 이런 경우에 중앙값과 최빈값이 대표값으로 더 유용하다. 중앙값은 숫자를 크기 순으로 배열했을 때 중앙에 위치한 값이다. 위의 중앙값은 2가 되는데, 이 경우엔 2가 산술평균 4보다 대표성이 크다. 최빈수는 가장 많이 나타나는 수다. 최소 최대값이 심하게 차이 날 경우 양극단을 제외하고 평균을 내기도 한다. 체조경기 채점 등에 흔히 사용되는 방법이다.

증가율도 조심해서 해석해야 한다. 예컨대 어떤 회사 주가가 500원에서 30만원으로 치솟았다고 하자. 이 경우 주가는 600배 오르고 상승률은 6만%가 된다. 하지만 이 회사 주가가 30만원에서 300원으로 폭락하면 하락률은 99.9%다.상승 하락율을 계산할 때 사용하는 분모가 달라지기 때문이다. 상승률은 0~무한대가 될 수 있지만 하락률은 0~100에서 움직인다.

신뢰수준 95%, 오차범위 ±3%포인트는?

‘성인 남녀 1000명을 대상으로 한 여론조사에서 갑 후보 지지율 40%, 을 후보 지지율 30%, 신뢰수준 95%, 오차범위는 ±3%포인트’라는 말의 정확한 의미는 뭘까. 먼저 신뢰수준 95%는 해당 여론조사를 95% 신뢰할 수 있다는 뜻이 아니라, 같은 방식의 조사를 100번하면 오차범위내 동일한 결과가 나올 횟수가 95번이라는 의미다. 오차범위는 ±3%포인트는 지지율이 40%인 경우 지지율 범위가 37~43%사이라는 의미다. 따라서 위의 여론결과를 풀어 설명하면 모집단 중 1000명을 뽑아 100번 조사를 실시했을 때 갑 후보 지지율 37~43%, 을 후보 지지율 27~33%가 나올 확률이 95번이라는 얘기다. 신뢰도는 높을수록, 오차범위는 작을수록 더 정확한 예측이 가능하다.

◆%와 %P 차이 알고 있나요?…%는 백분비, %P는 %간의 차이

몇 년 전 대입 수능시험 문제에 %와 %포인트가 잘못 쓰여 혼선을 빚은 사례가 있다. %와 %포인트는 각종 수치 변화를 언급할 때 자주 쓰지만 의외로 혼동하는 경우가 많다. 신문에서조차 잘못 쓰이는 사례가 가끔 발견된다.

퍼센트(%)는 백분비다. 기준 수량을 100으로 할 때 해당 수량이 차지하는 비율이 얼마인지를 나타내는 게 퍼센트다. 예를 들어 200이 300으로 늘어나면 기준(분모)을 100으로 할 때 증가분(분자)이 50이므로 증가율은 50%다. 퍼센트포인트는 퍼센트 간의 차이를 나타내는 표현이다. 즉 퍼센트와 퍼센트의 수치 차이가 퍼센트포인트다. 지난해 실업률이 3%에서 올해 6%로 상승했다고 가정하자. 이 경우 퍼센트, 퍼센트포인트를 사용해 두 가지 방법으로 표현할 수 있다. 먼저 퍼센트를 사용한다면 지난해 기준 3을 100으로 하면 실업률 증가 수치 3도 100이므로, “올 실업률은 작년보다 100% 높아졌다”고 표현하면 된다. 퍼센트포인트를 사용하면 지난해 상승 퍼센트와 올해 상승 퍼센트 차이가 3이므로, “올 실업률은 지난해보다 3%포인트 높아졌다”고 하면 된다.

퍼센트는 <(현재실업률-기존실업률)/기존실업률×100>으로 산출하고, 퍼센트포인트는 퍼센트(6-3)의 차이 즉 3이다. 수치가 의미하는 바는 같지만 퍼센트로 표현한 100이 퍼센트포인트로 나타낸 3보다 실업률이 더 크게 높아졌다는 느낌을 준다. 정부를 비판하려는 사람은 퍼센트포인트보다 퍼센트를 선호할 가능성이 크다.

신동열 한국경제신문 연구위원 기자 shins@hankyung.com