데이터 과학자의 사고법

김용대 지음 / 김영사
396쪽│1만6800원
GettyImagesBank

GettyImagesBank

지난달 13일 아프리카 알제리의 사막마을 아인세프라의 기온이 영하 3도까지 떨어졌다. 비 한 방울 내리지 않는 사하라 사막에 눈이 쌓였다. 겨울에도 기온이 영상 10도에 가까운 미국 텍사스주에선 영하 18도까지 떨어지는 30년 만의 한파가 닥쳤다. 암호화폐 비트코인은 지난 3일 5만달러를 돌파하는 등 연일 최고치를 경신하며 극적인 폭등세를 유지하고 있다.

이처럼 불확실성이 급증하고 변동성이 최고조에 이르는 시대다. 사람들은 점차 불확실성을 세계를 움직이는 법칙으로 받아들이고 있다. 김용대 서울대 통계학과 및 데이터사이언스대학원 교수는 “이런 시대적 상황에서 중요한 것은 불확실성을 없애려고 무모한 시도를 계속하는 게 아니라 불확실성 자체를 받아들이고 적절하게 대비하는 것”이라고 강조한다. 그러면서 주관적 감에 의존하는 대신 합리적으로 판단하는 통계적 사고법의 필요성을 제기한다. 통계적 사고법이 데이터를 통해 불확실한 사건에 대한 확률을 구하고 적절한 대비책을 제공한다는 것이다.

[책마을] 확률만 잘 따져도 세상살이 쉬워진다

김 교수가 쓴 《데이터과학자의 사고법》은 불확실성의 시대에 통계와 확률로 구성된 데이터과학이 어떻게 우리 사회와 삶의 문제를 해결할 수 있을지를 보여준다. 저자는 일상 속 사례를 통해 우리를 잘못된 판단으로 이끄는 여러 오류와 편향을 보여주고, 낯설고 어려운 데이터를 읽어내고 해석하며 활용하는 방법을 제시한다.

내 차선만 막히고, 내가 기다리는 버스만 늦게 오고, 내가 선택한 마트 계산대만 사람이 많은 이른바 머피의 법칙을 설명하기 위해 그는 통계학적 조사방법 중 하나인 ‘길이 편이 조사’를 꺼내든다.

저자에 따르면 시내버스의 평균 탑승인원을 구할 때 정부 통계는 전체 100대의 버스에 탄 전체 인원을 100으로 나눠 구한다. 100대 중 한 대에만 100명이 타고 나머지 99대에 0명이 탄다면 평균 탑승인원은 1명이 된다. 반면 시민통계는 시민 1000명을 무작위로 뽑아 각자 탔던 버스에 몇 명이 있었는지 물어본 후 이를 평균한다. 재미있는 점은 시민통계에서 정부통계보다 평균 탑승인원이 항상 크게 나온다는 것. 저자는 “정부가 통계를 조작해서가 아니라 혼잡한 버스에 탄 사람이 혼잡하지 않은 버스에 탄 사람보다 많으므로 시민을 조사하면 혼잡한 버스를 이용한 사람이 뽑힐 확률이 높아지는 것”이라고 설명한다.

2년차 프로야구선수들이 갑자기 부진을 겪는 이른바 ‘2년차 징크스’는 ‘평균으로의 회귀’로 설명한다. 1년차 성적이 평균보다 높은 선수들은 2년차 성적이 1년차 성적보다 낮을 확률이 높아진다. 따라서 2년차 징크스는 당연한 현상이라는 것이다. 행운의 로또번호를 맞히는 갖가지 방법이 지닌 함정은 데이터를 분석하면서 원하는 결과가 나올 때까지 비교를 계속하다 발생하는 ‘다중비교의 오류’로 말해준다.

수학교과서로만 접했던 통계와 확률이 얼마나 우리 일상 속에 많이 사용되고 있는지도 보여준다. 예를 들면 아파트 가격의 등락을 예측하는 것도 ‘조건부 확률’이라는 통계적 사고를 적용한 결과다. 다만 잘못된 데이터와 어림짐작에 근거해 부정확한 분석을 하는 것은 경계한다. 어림짐작과 확률이 얼마나 다른지 보여주기 위해 저자는 정확도 97%의 거짓말탐지기가 왜 법원의 증거로 채택되지 못하는지부터 한 반에 생일이 같은 두 사람이 있는 이유 등을 사례로 제시한다.

책의 후반부에선 통계학이 데이터과학으로 확장되면서 각종 산업현장에서 활약하고 있는 최첨단 데이터과학과 인공지능의 현재와 미래에 대해 설명한다. 인공지능의 윤리적 문제를 비롯해 데이터과학이 지닌 문제들도 도마에 올린다. 저자는 “데이터는 왜곡과 조작에 매우 취약할 뿐 아니라 동일한 데이터를 어떻게 분석하느냐에 따라 전혀 다른 해석이 나온다”며 “모든 통계엔 오류가 있을 수 있기에 데이터를 통해 얻은 판단의 한계와 불완전성을 이해해야 한다”고 강조한다.

은정진 기자 silver@hankyung.com

ⓒ 한경닷컴, 무단전재 및 재배포 금지