통계분석가인 네이트 실버는 2015년 도널드 트럼프가 미국 공화당 대통령 선거 후보가 될 가능성은 2%라는 조사결과를 발표했다. 이듬해 힐러리 클린턴(80.3%)과 본선에서 맞붙었을 때 트럼프가 대통령이 될 확률은 19.7%라고 제시했다. 하지만 빗나갔다. 최종 승자는 트럼프였다. 2008년과 2012년 버락 오바마 대통령의 당선과 득표율까지 정확하게 예고해 ‘족집게 대선 예측가’로 이름을 알린 그였다. 무엇이 잘못된 것이었을까.

[책마을] 내 은밀한 사생활, 구글 검색창엔 털어 놓는다
인터넷 데이터 전문가인 저자는 신간 《모두 거짓말을 한다》에서 사람들이 생각보다 자주 거짓말을 하기 때문이라고 분석한다. 그러면서 진짜 데이터, 사람들의 솔직한 마음은 구글 창에서 확인할 수 있다고 주장한다. 인터넷에는 트럼프가 여론조사와 달리 선전할 것이라는 징조가 있었다. 단순히 어떤 후보를 자주 검색하는지는 중요하지 않다. 사람들은 지지하는 후보뿐 아니라 싫어하는 후보도 많이 검색하기 때문이다. 저자가 발견한 단서는 후보 이름이 등장하는 순서다. ‘트럼프 클린턴 토론’ ‘트럼프 클린턴 여론조사’ ‘트럼프 클린턴 선거’로 소식을 검색한 당신이라면 여론조사에서 “지지자를 아직 결정하지 않았다” “모르겠다”라고 하지만 마음은 이미 트럼프에게 기울어 있는 유권자라는 것이다.

지역별 지지도 표시 지도도 힌트를 제공했다. 트럼프가 남부는 물론 북동부와 산업지대인 중서부에서도 선전했다는 것이 눈길을 끌었다. 이를 설명할 수 있는 변수는 무엇일까. 실업률, 종교, 이민자 비율, 오바마에 대한 반감? 저자는 이 지역이 ‘깜둥이(nigger)’라는 구글 검색이 가장 많았던 지역이라는 공통점을 찾아낸다.

구글 데이터가 가진 힘은 사람들이 절대 입 밖에 꺼내놓지 않는 이야기를 이 작은 창에 털어놓는다는 데 있다. 구글 트렌드(구글 검색정보 수집 프로그램)는 특정 단어나 문구가 다른 시간, 다른 지역에서 얼마나 자주 검색됐는지를 알려준다. 정보 검색 그 자체가 정보인 셈이다. 저자는 “빈칸에 단어나 문구를 입력하는 일상적인 행동이 작은 진실의 자취를 남기고 수백만 개가 모이면 결국 심오한 현실이 드러난다”고 강조한다.

의미 있는 데이터 분석을 위해 필요한 것은 ‘많은 데이터’가 아니라 ‘적절한 데이터’다. 저자는 그런 측면에서 구글을 높이 평가한다. 메타크롤러 라이코스 알타비스타 등을 제치고 구글이 검색분야를 평정한 것은 더 많은 데이터를 수집한 것이 아니라 더 나은 유형의 데이터를 찾았기 때문이다.

‘디지털 자백약’으로의 빅데이터 기능에도 주목한다. 감독관이나 관리자가 없다는 점이 사람들을 편하고 솔직하게 만든다. 저자는 미국인들이 ‘날씨’보다 ‘포르노’를 더 많이 검색하고 ‘불행한 결혼생활’보다 ‘섹스 없는 결혼생활’을 훨씬 더 많이 찾아본다는 예를 든다. ‘… 싶은 것이 정상인가요’라고 입력하면 앞에 뜨는 첫 번째 자동완성 기능의 첫 번째 제안은 ‘죽이고’다. ‘…를 죽이고 싶은 것이 정상인가요’라고 치면 자동으로 목적어에 ‘가족’이 채워진다는 사례도 다소 충격이다. 반면 페이스북과 같은 소셜미디어로는 편향된 데이터가 나올 수 있다. 자신을 좋게 포장하려 하기 때문에 설문조사보다 진실을 말할 유인이 작다는 것이다.

중요한 것은 축적과 분석이 쉬운 형태로 저장된 이 디지털의 흔적을 어떻게 활용할 것인가다. 저자는 선거뿐 아니라 정신질환과 성생활, 아동학대와 낙태, 광고와 종교, 건강과 관련해서도 데이터가 의미 있는 해결책을 제시해줄 수 있다고 주장한다. 드러나지 않지만 사회·경제적으로 어려움에 처한 사람들의 사정을 먼저 알아차릴 수 있다. 아동보호서비스 기관이나 인권단체들이 어떤 곳에 자원을 집중하면 가장 좋을지 방향을 제시하는 것도 가능하다. 인종이나 성별, 종교와 관련해 증오를 유발하거나 감소시키는 요인을 알아내는 데 검색 데이터를 이용할 수도 있다.

저자는 경제·경영서를 끝까지 읽는 확률은 10% 미만이라는 데이터를 근거로 ‘끝까지 읽을 사람이 드물테니 결론은 내리지 않겠다’고 책을 마무리한다. 하지만 저자의 웃음 섞인 예상과 달리 숨겨진 욕망을 읽는 흥미로운 데이터들 덕에 책을 끝까지 읽기는 어렵지 않다. 본론에서 결론도 충분히 유추할 수 있다. 새로운 디지털 데이터에는 우리가 볼 수 있다고 생각했던 것보다 훨씬 많은 것이 들어있고 이를 발전적으로 활용하는 폭은 더 커질 수 있다는 것이다. 저자는 말한다. “데이터 분석의 미래는 밝다. 온라인에 있기만 하면 언제나 어디에 있든지 실험을 진행할 수 있다. 빅데이터 시대에는 세상 전체가 실험실이다.” 당신의 마음을 읽을 검색창의 커서는 지금도 깜박이고 있다.

윤정현 기자 hit@hankyung.com