[데도무문] 2장. 데이터는 말이 없다
[편집자 주] '데이터로 돌아가는 세상(data-driven world)'이다. 모두 데이터를 이야기한다. 굴지의 글로벌 기업도, 정부도, 학교도, 병원도, 언론사도, 배달업체도, 스타트업(startup)도, 미래를 선점코자 하는 모든 진영이 데이터를 갈구한다.

바야흐로 '데도무문*'의 시대.
*데도무문: 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있다. '데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워본다.

그러나 여전히 '데이터'의 실체는 모호하다.
  1. 도대체 데이터란 무엇인가.
  2. 그 데이터로 어떤 황금알을 낳을 수 있기에 이리도 난리인가.
  3. 각 진영은 어떤 데이터를 수집하고, 분석하고 있는가.
  4. 데이터를 제대로 알고 있는 전문가는 누군가.
  5. 데이터 인력이 추구해야 할 가치는 무엇일까.

이 5가지 미스테리를 풀기 위해 문(門)이 없는 거대한 데이터의 길을 뉴스래빗이 걸어 가보고자 한다. 데이터 고수를 꿈꾸는 강종구 뉴스래빗 데이터 에디터(기자)가 직접 말이다 !.!

[tab title="데이터는 말이 없다"]
[데도무문] 2장. 데이터는 말이 없다
데도무문 2장에서 만날 고수는 황성연 닐슨코리아(이하 닐슨) 미디어조사부문 부장이다. 닐슨코리아는 약 100년 전통을 자랑하는 글로벌 상품 마케팅 및 컨설팅, 미디어 분석 전문기업인 닐슨(Nielsen)의 한국 지사다.

황 부장은 2010년부터 KBS, MBC, SBS, JTBC, YTN 등 국내 지상파 및 보도전문채널 시청률 분석을 주도해왔다. 미디어 사용자 및 트렌트 분석, 컨설팅으로 국내에서 잔뼈가 굵었다. 전통 데이터 분석 기업인 닐슨에서 미디어 현상을 데이터로 관찰·해석하고 있다. 언론학 박사이기도 한 그는 이미 국내 미디어 업계에선 데이터 분석으론 그 내공이 익히 알려진 '자타공인 고수'다. 특히 단순 트렌드을 분석하기보다, 데이터의 본질을 들여다보려는 전문가로 손꼽힌다.
데도무문 2장, 황 부장이 쏟아낸 인사이트를 데이터를 갈구하는 독자들께 가감없이 전달한다. 아래는 황 부장과 강종구 기자의 일문일답 !.!
[데도무문] 2장. 데이터는 말이 없다
1수(手). 일상이 된 데이터

- 닐슨 하면 여론조사, 시청률 등이 떠오르는데.

"닐슨은 다양한 데이터를 다룬다. TV 시청률 외에 PC, 모바일 이용 행태도 수집한다. 대형 마트를 비롯한 수많은 매장의 판매정보시스템(POS) 데이터로 소비 행태를 분석하기도 한다."

- 올해 조기 대선을 겪으면서 데이터를 보는 대중의 눈이 깐깐해졌음을 느꼈다.

"일상에서 자연스럽게 데이터를 접할 수 있는 시대다. 사회연결망서비스(SNS) 좋아요·댓글·공유 수 등 일상이 수치로 다가온 지 오래다. 데이터의 일상성이 높아졌다. 내 주변 데이터를 알면 나에게 큰 도움이 된다는 걸 알기 시작했다. 알기 쉽게 가공한 데이터와 이를 쉽게 쓸 수 있는 애플리케이션이 나타나면서 데이터에 관심이 높아진 것 같다.

변한 점도 있다. (대중의 데이터 이해도가 낮았던) 예전엔 데이터를 가진 자가 자기 마음대로 해석을 해도, 검증하기가 쉽지 않았다. 지금은 안 된다. 누구든지 다 알고 얘기할 수 있는 만큼 정확한 데이터를 제시해야 하는 사회가 됐다."


2手. 데이터는 말이 없다

- 정확히 가공한 수치엔 익숙하지만 방대한 데이터를 개괄적으로 이해하기엔 여전히 부담을 느끼는 이가 많다.

"인간은 데이터에서 인과 관계를 찾으려 한다. 결과가 아니라 원인을 궁금해한다. 원인을 이해해야 가설이 성립하고, 증명이 가능해지기 때문이다. 요즘 데이터는 (확정 통계치와 다르게) 방대한 원본 데이터(raw data)다. 원인을 찾기 전 데이터에서 보이는 현상에 대한 설명(description)이 필요하다.

그런데 한꺼번에 하려 한다. 현상을 있는 그대로 받아들이자니 뭔지 모를 밋밋함을 느껴서다. 분석은 데이터를 가공해 표현할 수 있도록 처리하는 게 아니라, 원인을 파악해 다른 변수가 어떤 영향을 미쳤는지 확인하는 과정이다.

여기서부터 상상력이 필요하다. 그러니까 어렵게 느끼는 것이다. 제일 중요한 건 '데이터는 말을 하지 않는다'는 사실이다. 데이터를 볼 땐 트렌드를 봐야 한다. 트렌드를 보면 설명이 된다."

- 원본 데이터를 섣불리 해석하기엔 위험하다. 어떻게 극복해야 할지.

"극복보단 연습이 필요하다고 본다. 데이터에서 인과 관계를 찾으려 들면 (경우의 수가) 너무 다양하다. 기존 통계학에서 인과 관계를 도출할 땐 극히 제한된 조건을 전제로 한다. 수많은 변수 중 내가 정한 것만 본다. 심지어 그렇게 만든 결과를 통계적 공간 안에서 맞냐 틀리냐를 따진다.

통계학자 분들에겐 죄송하지만 (웃음), 통계적 공간에서만 유효한 방식으로 오래 먹고 살았다. (아무리 좋게 봐도) 최소 200년 이상이다. 그러다 갑자기 그 방법론들 없이 설명해야 하는 전체 데이터들이 주목받고 있다. 통계적 공간에 정의한 독립 변수가 다 날아간다. 이 지점에서 문제가 생기기 시작한다."

- 어떤 연습을 뜻하나.

"이종(異種) 데이터가 필요하다. 단일 데이터와 붙여볼 다른 데이터를 찾아야 한다. 단일 데이터만을 가지고는 설명은 가능하나 원인 규명이 안 된다.

뉴스래빗의 서울 지하철 부정승차 기사를 예로 들자. 발생 시간대, 부정승차자 연령대, 발생 역명 등 다른 데이터가 붙으면 얘기가 달라질 수 있다. 날씨나 유동인구 현황도 함께 보면 참 좋을 것이다."

- 이종 데이터를 찾는 일이 항상 쉽지만은 않다. 뉴스래빗은 그 간극을 취재로 메우고 있다. 다만 데이터 자체에서 도출된 사실로 보도해보고 싶은 욕심은 항상 있다.

"퓰리처 상을 받은 한 데이터저널리즘 기사는 데이터를 취재의 보조 수단으로 사용했다. 미국에서 스쿨버스 운전을 하다 사고가 났다. 그런데 알고 보니 이미 범죄 이력이 있는 자였다. 알코올 중독 증세도 있었다. 전국에 있는 버스 기사 중 알코올 중독인 사람인지 얼마인지 찾는 일을 했더라. 뉴스의 확증을 찾아내는 용도로 데이터를 활용한 것이다.

방대한 원본 데이터에 원하는 독립 변수가 없다면, 독립 변수를 만들어 놓고 들어가면 된다. 독립 변수를 만들기 위해 필요한 이종 데이터를 수집하고 조합하면 된다."
상단의 '준비가 필요한 때' 탭을 터치하세요.
나머지 기사를 보실 수 있습니다 !.!


[/tab]

[tab title="준비가 필요한 때"]
[데도무문] 2장. 데이터는 말이 없다
3手. 써먹을 생각 말고, 모을 준비부터

- 뉴스래빗 데이터랩을 지속가능한 데이터저널리즘 공간으로 키우고 싶다. 데이터를 취재원으로 본다면, 자신만의 데이터를 가져야 경쟁력이 생길 것이다. 사람을 먼저 늘려야 할지, 데이터 저장·분석 장치 등 인프라를 먼저 마련할지 고민이 많다.

"(잠깐 고민한 후) 데이터 종류와 수준에 따라 다르다고 본다.

닐슨은 데이터를 자체적으로 수집한다. 그래서 인력도 많다. 하지만 언론사는 굳이 그럴 필요가 없지 않겠나. 있는 데이터를 어떻게 관리하고 연결할 것인지가 중요하다. 취재원이 데이터를 제공하지 않을 경우 내부에 백업 데이터가 존재해야 한다. 필요할 줄 알고 확보한 데이터가 필요 없을 때 (장기적으로 보고) 쌓아둘 공간이 존재하느냐도 문제다.

사람이 필요하려면 데이터에 이미 인덱싱(indexing)이 돼있어야 한다. 데이터가 존재하는지, 있다면 어디 있는지 한번에 꿰는 사람이 필요하다. 인덱싱된 데이터를 파악하고 있는 사람이 데이터를 지속적으로 쌓고 관리해야 한다. 데이터 형태는 상관 없다. 존재 여부와 위치를 아는 사람이 있다면 (고도화된 데이터베이스가 아닌) 압축 파일 형태여도 좋다.

필요한 데이터의 범위와 내용을 결정하는 건 사람의 몫이다. 그 데이터를 수집하고 업데이트하는 것도 사람의 몫이다. 그 과정을 자동화할 수 있다면 좋겠지만… (고개를 저으며) 우리나라에서는 힘들 것이라고 본다."

- 데이터를 인덱싱하고, 모으고, 자동화까지 하려면..현실적으로 어렵다.

"데이터를 모으기에 앞서 사전 준비는 꼭 필요하다. 그 준비는 컴퓨터가 못 해준다. 사람이 데이터에 적절한 포맷을 만들고, 그 포맷이 정규화되면 그 다음에 알고리즘으로 만들어서 자동화할 수 있는 것이다. 많은 사람들이 이 과정 없이 데이터가 그냥 모여서 정리될 것이라고 오해한다."

- 데이터가 이미 정답을 말하고 있다고 생각하는 사람이 많다.

"여태까지는 데이터로 항상 인과 관계를 찾아왔다. 그런데 이제 인과 관계를 규명할 수 없는 데이터들이 넘쳐나고 있다. 서로 다 다른 형식, 다 다른 필드의 데이터를 가지고 자기 시각으로만 해석한다. 방대한 원본 데이터엔 애초에 정답 자체가 없다. 게다가 전부를 보지도 못하는 상황인데 어떻게 정답이 나오나.

산업 사회를 이끌어왔던 건 서류 양식 때문이란 말이 있다. 통일된 서류 양식이 데이터베이스 역할을 해왔던 셈이다. 그런데 인터넷 시대로 넘어오면서 서류 양식이 점점 제각각이 되기 시작했다. 그러면서 권한이 분리됐다. 양식과 라벨이 제각각이니 같은 데이터인데도 구분이 안 된다. 하나로 합치려면 어마어마한 작업이 필요하게 됐다.

데이터를 모으는 방식이 굉장히 손쉬울 것이라고 오해한다. 역으로 보면 누군가가 이렇게 모으자고 규정해주지 않으면 데이터 통일에 너무 오랜 시간이 걸린다. 가장 큰 문제다. 모으기 전에 치밀하게 준비부터 해야한다. 안그러면 모아놓은 데이터도 쓰기 어렵다."

4手. AI -4차혁명 논하기 전에

- 언론사 뿐 아니라 모든 분야에 적용할 수 있는 얘기 같다.

"영상물의 장르 체계를 예로 들 수 있다. 우리나라에서 가장 세분화된 한국방송광고진흥공사 기준은 끝까지 다 내려가봐야 258개다. 반면 넷플릭스는 1만개 이상이다. 넷플릭스가 데이터를 세분화해 관리하기 위해 얼마나 많은 공을 들이는지 사람들은 간과한다. 이런 준비가 필요하다.

공공기관, 기업도 다 마찬가지다. (목소리를 높이며) 어떤 공공기관이나 기업도 동일한 기업으로 데이터 모을 준비가 안 돼있다. 우리 것과 남의 것을 한 데 모을 준비가 안 됐는데 무작정 모으고 쓰려고 한다. 어쩔 수 없이 노가다가 되지 않겠나.

내 것과 남의 것 구분 없이 통일된 기준으로 데이터를 한 데 모아야 할 시기가 점점 다가오고 있다. 개별 사업자는 데이터를 모을 수 있도록 준비해야 한다. 개별 데이터들을 한 덩어리로 만들어 같이 분석할 수 있는 환경 또한 만들어야 한다. 두 가지 준비가 같이 돼야만 한다."

- 구글 검색과 아마존 추천시스템도 결국 데이터를 오래 준비했기에 가능했을 것이다. 하지만 우리 사회는 준비가 부족하다. 걱정이 앞선다.

"알파고(AI)가 바둑을 둘 수 있게 된 건 정리된 기보들이 있었기 때문이다. 바둑은 19x19의 제한된 규칙 하에서 움직이는 게임이다. 모든 내용이 다 있고 승패까지 다 결론이 나 있으니 답이 나올 수밖에. 데이터가 다 정리돼 있으니까.

그 공간을 벗어나 데이터가 흐트러져 있는 상황이 되면 AI에 뭘 집어넣고 돌릴 것인가. AI니 4차 산업혁명이니 논하기 전에 일단 데이터를 준비부터 하고 이야기해야 한다."
[데도무문] 2장. 데이터는 말이 없다
난해한 인터뷰에 응해주신 황성연 부장께 감사의 말씀을 전합니다!.!

#데도무문? 대도무문(大道無門). 큰 길엔 문이 없다는 사자성어입니다. 송나라 선승인 무문 혜개(1183~1260)의 수행 이치를 담은 책 '무문관(無門關)'에 쓰여 있죠. '데도무문(데이터+대도무문)'에서 문 없는 큰 길, 데이터 분야에 몸담은 사람을 인터뷰하며 수(手)를 배워봅니다.

책임= 김민성, 연구= 강종구 한경닷컴 기자 jonggu@hankyung.com
뉴스래빗 페이스북 facebook.com/newslabit
기사제보 및 보도자료 newslab@hankyung.com
[/tab]