[책마을] 그럴듯한 통계도 곧이곧대로 믿지 마라
최근 올리브유나 견과류가 들어간 지중해식 요리가 당뇨병 발병률을 30% 낮춰준다는 뉴스가 큰 화제가 됐다. 국내에서도 올리브유와 호두 판매량이 급증했다. 이 뉴스는 ‘지중해식 식생활을 한 사람 100명 중 당뇨에 걸릴 사람이 30명 줄어든다’는 뜻일까? 그렇지 않다. 실제 조사 결과에선 올리브유를 많이 섭취한 집단의 당뇨병 발병률은 6.9%, 견과류 섭취 집단은 7.4%, 비교집단은 8.8%로 나타났다. 정확하게 표현하자면 올리브유를 많이 섭취할 경우 당뇨에 걸릴 확률은 1.9%포인트(8.8%와 6.9%의 차이) 줄어들었다. 하지만 광고주들은 정직하게 절대적 차이를 계산하는 대신 비교집단을 기준으로 올리브유 집단의 상대적 발병 감소율을 계산해 소비자를 현혹한 것이다.

통계는 막강한 힘을 가진다. 각종 통계는 정부의 정책 결정부터 기업이 상품을 판매하거나 수요를 예측할 때 기초 자료로 쓰인다. 통계를 어떻게 해석하느냐에 따라 세상은 바뀐다. 그런데 세상에는 ‘올리브유의 당뇨병 발병률 감소’ 사례와 같은 ‘불량 통계’도 많다. 독일 심리학자 게르트 기거렌처, 통계학자 발터 크래머, 경제학자 토마스 바우어는 현장의 불량 통계를 접한 경험을 집약한 《통계의 함정》을 발간했다.

책에서는 통계가 애용하는 속임수가 적나라하게 드러난다. 첫 번째는 ‘위험의 상대성’이다. 예컨대 ‘상어 공격 건수가 2010년 대비 두 배 증가했다’는 뉴스는 세계에서 상어의 공격으로 사망한 건수가 2010년 6건에서 2011년 12건으로 늘어난 사례를 수치화해 보도한 것이다. 위험의 절대적 증가분은 ‘6명’으로 적지만, 상대적 증가율은 100%다. 저자는 “상대적 리스크의 통계는 실제보다 사람들을 더 불안하게 만드는 주범”이라고 지적한다.

객관적 숫자로 집계된 것 같은 범죄율이나 빈곤율 같은 통계에도 치명적 오류가 숨어 있다. 저자는 그 예로 바티칸 시국의 범죄율을 언급한다. 세계에서 범죄가 가장 많이 발생하는 국가로 바티칸은 단골 1위로 꼽히지만 이는 주민 수를 기준으로 범죄 발생 건수를 비교했기 때문에 나타나는 오류다. 2011년 바티칸에서는 민사소송이 640건, 형사 소송은 226건 발생했다. 당시 국민 수(492명)보다 훨씬 많은 건수다. 저자는 “신고된 사건의 99%는 내국인이 아니라 연간 약 1800만 명에 이르는 방문객이 피해자나 범죄자인 사건이었다”며 “자주 접하는 순위조사 역시 교묘한 수법을 동원해 작성자의 기호에 맞춰 선발되곤 한다”고 설명한다.

상관관계를 인과관계로 착각한 통계도 많다. 저자는 “국민소득이나 국가부채가 함께 증가하거나 감소한다고 할 때 ‘양의 상관관계’에 있다고는 할 수 있지만 인과관계가 있다는 결론을 내려서는 안 된다”고 지적한다.

저자는 책 말머리에 통계를 대하는 바람직한 태도를 당부한다. 저자가 제안하는 정보 왜곡과 조작에 대처할 수 있는 법칙은 이렇다. △통계 작성자가 무엇을 노리고 통계를 만들었는지 염두에 둘 것 △퍼센트의 기준에 대해 항상 생각할 것 △증가율이 항상 절대 산술적 수치로 계산됐을 거라고 생각하지 말 것 △‘유의미한’ ‘과학적으로’ 같은 형용사의 남용을 조심할 것 △상관관계와 인과관계를 절대 혼동하지 말 것 등이다.

심성미 기자 smshim@hankyung.com