본문 바로가기

    ADVERTISEMENT

    [Cover Story] '통계함정'을 피하려면?…표본의 모집단 대표성이 핵심

    • 공유
    • 댓글
    • 클린뷰
    • 프린트
    통계와 여론은 예측·판단의 대표적 근거다. 통계·여론은 경제를 진단하고, 유권자의 표심을 가늠하는 핵심 잣대다. 한데 통계와 여론은 자칫하면 왜곡될 수 있다. 통계를 집계하거나 여론을 조사하는 것은 모집단의 성향을 파악하기 위한 목적이다. 따라서 표본은 무엇보다 모집단을 대표할 수 있어야 한다. 일반적으로 표본의 수가 클수록, 표본이 모집단에서 골고루 추출될수록 표본의 대표성은 커진다. 통계 결과나 여론조사 결과를 해석할 때 도 유의해야 한다.

    표본은 무작위로 추출해야

    통계·여론조사는 전수조사와 표본조사가 있다. 전수조사는 모집단 전부가 대상이고. 표본조사는 모집단 중 일부를 추출해 통계를 작성하거나 여론을 집계한다. 전수조사는 정확하지만, 비용이 많이 들어 현실에서는 거의 사용하지 않는다.

    따라서 일반적으로 통계 여론조사를 할 때는 표본조사를 사용하는데 여기서 오류가 발생하기 쉽다. 무엇보다 표본을 어떻게 추출하느냐가 매우 중요하다. 첫째는 표본의 크기다. 표본이 모집단을 대표하려면 일정 규모 이상이 되어야 한다. 통상 모집단의 5%(응답자 비율 기준)가 기준이다. 모집단이 국민 고교생 중학생 지역구 주민 등 매우 클 때는 500명을 최소규모로 하고 있다. 즉 샘플이 500명이 안되는 표본조사는 의미가 없다는 말이다. 특히 한 두건의 사례를 두고 전체를 해석하면 곤란하다. 1960년대 미국의 한 대학에서 여학생 입학을 허용한 뒤에도 남녀분리론자들은 “여학생의 33.3%가 교수와 결혼했다”며 여학생 입학의 부작용을 지적했다. 비율로는 아주 많은 여학생이 교수와 결혼한 것처럼 느껴지지만 사실은 단 한 명이었다. 첫해 입학한 여학생이 세 명뿐이었기 때문이다. 이는 조금 극단적인 예이지만 표본이 너무 작으면 통계를 왜곡한다.

    또 하나는 표본의 대표성이다. 표본이 이념·계층·학력·연령 등 어느 한 쪽으로 치우치면 모집단을 설명할 수 없다. 일반적으로 표본을 무작위 추출하는 것은 바로 이러한 편향을 배제하기 위한 목적이다. 1936년 미국 대선의 여론조사는 ‘표본의 대표성’을 일깨워주는 대표적 사례다. 당시 리터러리 다이제스트는 여론조사를 통해 공화당 랜던 후보가 57%의 지지율로, 43%에 그친 루스벨트 민주당 후보에 압승할 것으로 예상했다. 예측은 크게 빗나갔다. 결과는 루스벨트가 61%의 득표율로 완승했다. 왜 이런 결과가 생겼을까. 당시 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론을 조사했다. 한데 당시 전화·자동차를 보유한 부유층은 대부분 공화당 지지자였다. 표본이 모집단을 대표하지 못한 것이다.

    평균의 함정·증가율의 함정

    통계나 여론조사 결과를 바르게 이해하는 것도 중요하다. 그 중 하나가 ‘평균의 함정’이다. 평균을 정확히 이해하려면 산술평균, 중앙값, 최빈값을 두루 알아야 한다. 우리가 흔히 쓰는 것은 산술평균이다. 7명의 점수가 각각 1, 1, 2, 3, 1, 3, 3라면 산술평균은 7명 점수의 합(14)을 사람 숫자(7)로 나눈 값, 즉 2점이다. 이 평균은 나름 대표값을 잘 나타낸다고 할 수 있다. 한데 1, 1, 2, 3, 1, 3, 17 이라면 17이라는 유독 큰 숫자가 산술평균을 끌어 올리는 역할을 해 산술평균(4점)이 대표값 역할을 하지 못한다. 이게 바로 평균의 함정이다. 이런 경우에 중앙값과 최빈값이 대표값으로 더 유용하다. 중앙값은 숫자를 크기 순으로 배열했을 때 중앙에 위치한 값이다. 위의 중앙값은 2가 되는데, 이 경우엔 2가 산술평균 4보다 대표성이 크다. 최빈수는 가장 많이 나타나는 수다. 최소 최대값이 심하게 차이 날 경우 양극단을 제외하고 평균을 내기도 한다. 체조경기 채점 등에 흔히 사용되는 방법이다.

    증가율도 조심해서 해석해야 한다. 예컨대 어떤 회사 주가가 500원에서 30만원으로 치솟았다고 하자. 이 경우 주가는 600배 오르고 상승률은 6만%가 된다. 하지만 이 회사 주가가 30만원에서 300원으로 폭락하면 하락률은 99.9%다.상승 하락율을 계산할 때 사용하는 분모가 달라지기 때문이다. 상승률은 0~무한대가 될 수 있지만 하락률은 0~100에서 움직인다.

    신뢰수준 95%, 오차범위 ±3%포인트는?

    ‘성인 남녀 1000명을 대상으로 한 여론조사에서 갑 후보 지지율 40%, 을 후보 지지율 30%, 신뢰수준 95%, 오차범위는 ±3%포인트’라는 말의 정확한 의미는 뭘까. 먼저 신뢰수준 95%는 해당 여론조사를 95% 신뢰할 수 있다는 뜻이 아니라, 같은 방식의 조사를 100번하면 오차범위내 동일한 결과가 나올 횟수가 95번이라는 의미다. 오차범위는 ±3%포인트는 지지율이 40%인 경우 지지율 범위가 37~43%사이라는 의미다. 따라서 위의 여론결과를 풀어 설명하면 모집단 중 1000명을 뽑아 100번 조사를 실시했을 때 갑 후보 지지율 37~43%, 을 후보 지지율 27~33%가 나올 확률이 95번이라는 얘기다. 신뢰도는 높을수록, 오차범위는 작을수록 더 정확한 예측이 가능하다.

    ◆%와 %P 차이 알고 있나요?…%는 백분비, %P는 %간의 차이

    몇 년 전 대입 수능시험 문제에 %와 %포인트가 잘못 쓰여 혼선을 빚은 사례가 있다. %와 %포인트는 각종 수치 변화를 언급할 때 자주 쓰지만 의외로 혼동하는 경우가 많다. 신문에서조차 잘못 쓰이는 사례가 가끔 발견된다.

    퍼센트(%)는 백분비다. 기준 수량을 100으로 할 때 해당 수량이 차지하는 비율이 얼마인지를 나타내는 게 퍼센트다. 예를 들어 200이 300으로 늘어나면 기준(분모)을 100으로 할 때 증가분(분자)이 50이므로 증가율은 50%다. 퍼센트포인트는 퍼센트 간의 차이를 나타내는 표현이다. 즉 퍼센트와 퍼센트의 수치 차이가 퍼센트포인트다. 지난해 실업률이 3%에서 올해 6%로 상승했다고 가정하자. 이 경우 퍼센트, 퍼센트포인트를 사용해 두 가지 방법으로 표현할 수 있다. 먼저 퍼센트를 사용한다면 지난해 기준 3을 100으로 하면 실업률 증가 수치 3도 100이므로, “올 실업률은 작년보다 100% 높아졌다”고 표현하면 된다. 퍼센트포인트를 사용하면 지난해 상승 퍼센트와 올해 상승 퍼센트 차이가 3이므로, “올 실업률은 지난해보다 3%포인트 높아졌다”고 하면 된다.

    퍼센트는 <(현재실업률-기존실업률)/기존실업률×100>으로 산출하고, 퍼센트포인트는 퍼센트(6-3)의 차이 즉 3이다. 수치가 의미하는 바는 같지만 퍼센트로 표현한 100이 퍼센트포인트로 나타낸 3보다 실업률이 더 크게 높아졌다는 느낌을 준다. 정부를 비판하려는 사람은 퍼센트포인트보다 퍼센트를 선호할 가능성이 크다.

    신동열 한국경제신문 연구위원 기자 shins@hankyung.com

    ADVERTISEMENT

    1. 1

      배우 이선균 수사정보 유출 전직 경찰관, 집행유예 선고

      마약 투약 혐의로 수사를 받다가 숨진 배우 이선균 씨의 수사 정보를 유출한 전직 경찰관이 집행유예를 선고받았다.인천지법 형사11단독 김샛별 판사는 17일 선고 공판에서 공무상비밀누설 등 혐의로 기소된 30대 A 전 경위에게 징역 1년 2개월에 집행유예 2년을 선고했다. 또 80시간의 사회봉사를 명했다.A 전 경위로부터 받은 수사 대상자 실명 등 개인정보를 다른 기자에게 제공한 혐의로 기소된 30대 기자 B씨에게는 벌금 500만원을 선고했다.재판부는 "A 전 경위는 수사 관련 개인 정보를 2차례 누설했고, B씨는 그로부터 받은 정보를 다른 기자에게 누설해 국민 신뢰를 침해하는 범죄를 저질러 죄책이 가볍지 않다"고 지적했다.다만 "이들은 잘못을 인정했고 범행이 수사에 실질적 지장을 초래하지는 않았다"라며 "A 전 경위는 경찰 공무원으로 10년간 성실히 근무하다가 이 일로 파면당했고, B씨도 직장에서 징계 처분을 받은 점과 지인들이 선처를 탄원한 점 등을 고려했다"고 양형 이유를 밝혔다.앞서 검찰은 A 전 경위와 B 씨에게 각각 징역 3년과 징역 6개월을 구형했다.A 전 경위는 지난 2023년 10월 이 씨 마약 의혹 사건의 수사 진행 상황을 담은 자료(수사 진행 보고서)를 사진으로 찍어 전송하는 방식 등으로 B씨를 비롯해 기자 2명에게 유출했다. 그가 유출한 보고서는 인천경찰청 마약범죄수사계가 같은 해 10월 18일 작성한 것으로, 이 씨의 마약 사건과 관련한 대상자 이름과 전과, 신분, 직업 등 인적 사항이 적혀 있었다.자료를 B씨로부터 전달받은 한 연예 매체는 이 씨 사망 이튿날인 2023년 12월 28일 이 보고서 편집본 사진과 내용을 보도했다.파면된 A 전 경위는 이에 불복해 인천경찰

    2. 2

      한동대 신임 총장에 박성진

      한동대 제8대 총장에 박성진 포스텍 교수(사진)가 17일 선임됐다. 임기는 내년 2월부터 2030년 1월까지 4년이다.박 신임 총장은 1991년 포스텍 기계공학과를 졸업하고 동 대학원 석·박사 학위를 받았다. 펜실베이니아주립대와 미시시피주립대에서 연구원 및 연구교수로 재직했다. 이후 포스텍 교수로 부임해 연구부처장, 산학처장, 기술지주회사 대표를 지냈다. 포스코 및 포스코홀딩스 산학협력실장을 맡아 산학협력 분야에서 성과를 냈다는 평가를 받는다.

    3. 3

      '음주 뺑소니' 김호중, 성탄절 특사 물거품…가석방 '부적격' 판단

      음주운전 뺑소니 사고를 내 실형을 선고받고 복역 중인 가수 김호중(34)이 '성탄절 특사' 가석방 심사에서 부적격 판단을 받았다.17일 법조계에 따르면 법무부 산하 가석방심사위원회는 이날 가석방 대상 수용자들에 대한 적격 여부를 검토했고, 김호중에 대해 부적격 판단을 내렸다.형법상 유기징역을 선고받은 자는 형기의 3분의 1이 지나면 가석방될 수 있다.김호중은 나이와 범죄 동기, 죄명, 재범 위험성 등을 고려해 일정 조건이 되면 자동으로 가석방 심사 대상에 오르는 관련법에 따라 자동으로 가석방 심사 대상이 됐지만, 죄질이 나쁜 점 등을 고려해 부적격 판단을 받은 것으로 보인다.김호중은 앞서 지난해 5월 9일 밤 음주 후 본인 소유의 차량을 운전하던 중 서울 강남구 압구정동의 한 도로에서 중앙선을 넘어 반대편에서 오던 택시와 접촉 사고를 냈고, 같은 달 24일 "증거인멸 우려가 있다"는 법원의 판단에 따라 구속됐다.같은 해 11월 1심 재판부는 특정 범죄 가중 처벌 등에 관한 법률 위반(위험운전치상) 등 혐의를 받는 김호중에게 징역 2년 6개월의 실형을 선고했다.김호중은 판결에 불복해 항소했지만 2심에서도 원심과 마찬가지로 2년 6개월의 형을 받았고, 김호중은 상고를 포기하고 복역해왔다.이보배 한경닷컴 객원기자 newsinfo@hankyung.com

    ADVERTISEMENT

    ADVERTISEMENT