[CEO의 서재] 통계는 '새빨간 거짓말' 아니라 이해 대상이다
1950년대 미국 저널리스트 대럴 허프는 《새빨간 거짓말, 통계》를 외쳤고, 사람들은 옳거니 했다. 당시 자동차가 폐암을 유발한다는 믿음이 횡행하던 와중에, 리처드 돌과 오스틴 힐은 장기간 체계적인 설계 아래 수집한 통계를 바탕으로 흡연이 폐암 유발 가능성을 현저히 높인다는 논문을 발표했다. 담배회사와 연구팀 사이에 공방이 일어났다. 허프는 담배회사 측 요청을 받고 전문가 증인 자격으로 법정에 섰다. 흡연과 폐암 사이에 상관관계는 있을지 몰라도 인과관계는 없다고 주장하며 논문의 신빙성을 부인했다. 누가 옳은 것일까?

영국의 베스트셀러 경제경영 작가 팀 하포드는 신작 《데이터 탐정(The Data Detective)》에서 통계에 속지 않으면서 진실에 다가서는 지침들을 제시했다. 미신과 속설 대신 올바른 통계에 바탕을 두고 행동했을 때만 사회는 보다 건강하게 기능할 수 있기 때문이다.

[CEO의 서재] 통계는 '새빨간 거짓말' 아니라 이해 대상이다
먼저, 개인이 지닌 감정의 선입견을 걷어내는 훈련을 해야 한다. 축구경기에서 양 팀 파울 숫자가 같아도 우리 편에 대한 판정은 편파고, 상대편에 대해서는 공정이라고 여긴다. 정치적으로 진보든 보수든, 비리 데이터가 동일한 규모로 나와도 내 편의 비리는 정당하고 억울하며, 상대편의 것들은 사악하고 응징할 대상이라고 마구 공격한다. 이 모든 감정의 렌즈를 걷어내고 냉정하게 숫자를 보려고 노력하지 않는 한, 아무리 진실을 주장해도 가짜 뉴스로 폄하되는 신세를 면하기 어렵다.

또 사람은 자신의 경험이라는 틀 안에서 세계를 보기 쉽다. 새의 눈으로 내려다보기보다 벌레의 시야에 갇히는 것이다. 출퇴근 시간대에 혼잡한 노선을 주로 이용하던 사람과 그렇지 않은 사람 앞에 도시의 대중교통 혼잡도 통계를 보여주면, 둘 다 자신이 경험한 세계와 사뭇 다르다는 것을 알고 받아들이기 힘들지 모른다. 투표에서도 반대편 표가 예상 외로 많이 나오면 그럴 리가 없는데 뭔가 조작이 있었을 것이라는 의심이 들기 쉽다.

다음으로는 데이터 수집 및 계산 과정 자체를 면밀히 들여다봐야 한다. 영국 런던과 중부지역 병원 간 유아사망률에 큰 차이가 났다. 그 이유는 런던에서는 24주 이후 신생아만 ‘출생’으로 집계하지만 중부지역 병원들은 24주 미만에 대해서도 그렇게 집계하는 관행이 있기 때문이다. 제아무리 권위 있는 연구자가 체계적으로 설계한 실험이라고 해도 어차피 표본을 대상으로 하게 된다. 연구자들은 표본의 대표성을 확보하려 노력하지만, 다른 시기와 지역의 표본으로 연구하면 얼마든지 다른 결론이 나올 수 있다. 어용 연구들이 종종 이런 데 동원되는데, 정치적으로 민감한 결론이 나올 수 있는 표본은 처음부터 배제당하기도 한다.

시대의 유행인 빅데이터 영역으로 들어가면 문제는 더 심각하다. 구글은 2009년 검색어와 독감 발생 사이의 연관 패턴을 분석해 독감 유행을 예측하는 알고리즘을 발표했다. 이어서 빅데이터 열풍이 일었다. 그러나 독감이 확산되는 생리적·사회적 인과 메커니즘을 간과한 채 단순히 표면상 방대한 데이터의 유사 상관관계만으로 구축된 이 시스템은 몇 년 지나지 않아 허점을 드러내기 시작했다. 베일에 싸인 알고리즘의 속내를 모르고 그 결론만 보고 환호하는 일은 없어야 한다.

데이터 시각화 착시도 한몫한다. 사람들은 건조한 숫자보다 멋진 차트에 끌린다. 나이팅게일의 부상병 통계분석 보고서에 빅토리아 여왕이 감명받은 것은 골치 아픈 숫자가 아니라 아름다운 그래프 때문이었다.

저자는 통계에 속지 않으면서 이를 올바로 이해하고 활용할 수 있는 유일한 길은 드러난 통계에 대한 끝없는 호기심과 반성밖에 없다고 말한다. 하지만 훈련받은 전문가들일수록 자신의 지식을 과신한 채 더 이상 ‘왜?’를 묻는 작업을 포기하는 경향이 있다. 가장 사악한 것은 정치인들이 진실된 수치를 둘러싼 질문과 논쟁을 차단한 채, 정말로 새빨간 거짓말 통계를 유권자들에게 팩트라는 이름으로 주입하며 선동하는 일이다. 상황이 개선됐다는 증거로 내세우는 수많은 경제 통계가 여전히 의심받는 이유다.

송경모 < 고려대 기술경영전문대학원 겸임교수 >