빅데이터 인문학:진격의 서막

에레즈 에이든·장바티스트 미셸 지음 / 김재중 옮김 / 사계절 / 384쪽 / 2만2000원
[책마을] 클릭 한 번으로 책 수백만권 읽는다면

2010년 12월16일 발간된 과학전문지 ‘사이언스’ 표지는 하버드대에 다니는 두 젊은 학자가 쓴 논문이 장식했다. ‘수백만권의 디지털화된 책들을 이용한 문화의 정량적 분석’이란 제목이었다. 같은 날 두 사람이 개발한 ‘구글 엔그램 뷰어’(books.google.com/ngrams)가 인터넷에 공개됐다. 입력창에 단어를 입력하면 구글이 디지털화한 800만권의 책을 검색해 해당 단어가 1520~2012년 사용된 빈도 추이를 매끄러운 곡선의 그래프로 보여준다.

이 사이트는 공개 후 24시간 동안 300만명이 방문해 전 세계적인 화제를 불러일으켰다. 빅데이터를 활용한 ‘디지털 인문학’의 서막을 알리는 사건이었다.

《빅데이터 인문학:진격의 서막》을 쓴 에레즈 에이든과 장바티스트 미셸은 저작권 등 법률적·윤리적 문제로 외부에 쉽게 공개하지 않는 ‘구글 북스’ 데이터를 최초로 다룬 인물들이다.

저자들은 이 책에서 ‘구글 엔그램 뷰어’의 탄생 배경과 의의, 개발 과정 등을 상세히 설명하고, 이 프로그램을 통해 언어, 문화, 역사 부문에서 이들이 수행한 흥미롭고도 통찰력있는 연구 결과를 소개한다. 또 빅데이터가 단순한 상업적 ‘마케팅 도구’가 아닌 ‘역사와 문화를 읽어내는 새로운 눈’으로서 인문학에 가져올 혁명적인 변화를 그린다.

프로그램은 800만권의 책을 순식간에 읽어내며 ‘The United States’가 복수형이 아닌 단수형으로 쓰인 시점, 지적 탐구 세계에서의 ‘사회주의’와 ‘자본주의’의 역학 관계를 ‘우아한 쌍곡선’으로 그려낸다. 저자들은 이처럼 디지털화된 대량의 텍스트를 정량적으로 분석하는 연구 방법을 ‘컬처로믹스’라고 명명했다.

이 용어는 생물학에서 DNA 염기 서열의 대규모 집합이 어떤 패턴을 드러내는 것처럼, 방대한 양의 어휘 데이터도 인간과 문화를 분석하는 데 도움을 줄 수 있다는 생각을 담고 있다. 의미의 해석을 추구해온 인문학에 ‘데이터 과학’이란 방법론을 제안하는 것이다. 저자들은 “클릭 한 번으로 수백만, 수천만권의 책을 읽는 기술을 통해 한 사람이 기껏해야 수십, 수백권의 책을 읽으며 연구하는 방식으로는 발견할 수 없는 사실들을 새롭게 찾아낼 수 있을 것”이라고 말한다.

송태형 기자 toughlb@hankyung.com

ⓒ 한경닷컴, 무단전재 및 재배포 금지