[한경 BIZ School] 데이터 분석, '사실'은 있지만 '진실'은 없다

입력2017.01.05 16:16 수정2017.01.05 16:16 지면B7

Let's Master 피플 애널리틱스 (4)

대상 어떻게 나누냐에 따라 서로 다른 결과 나올 가능성

직원 경향 정량화한 데이터 분석
근사치로 표현된 '팩트'만 존재
해석 통해 '진실' 가까워질 수 있어

양승준 < 아이디케이스퀘어드 대표 >

미국 심리학자 폴 밀은 그의 저서 《임상적 예측과 통계적 예측의 비교(Clinical versus Statistical Prediction)》에서 ‘부러진 다리 사례’를 소개한 바 있다.

내용을 간략히 옮겨보면 이렇다. 과거 데이터에 따르면 김 교수는 매주 화요일 저녁 동네 극장에 갔다. 그런데 김 교수가 지난 주말 저녁에 다리가 부러져 깁스를 하게 됐다. 해당 사실을 모르는(알 수 없는) 통계 모델은 통계적 추론을 통해 이번주 화요일 저녁에도 김 교수가 영화를 보러 갈 것이라고 높은 확률로 예측할 것이다. 반면 동네 사정을 꿰고 있는 극장 매니저 최씨는 김 교수가 당분간 극장 출입을 못할 거라는 사실을 잘 알고 있을 것이다.

최씨처럼 기계(알고리즘)가 모르는 ‘유용하고 적절한 사실’을 아는 경우 기계의 예측을 무시해도 좋다. 중요한 것은 나는 알고 기계는 모르는 사실이 예측하려고 하는 행위와 관계가 있는지다. 면접관이 면접을 통해 지원자 역시 나랑 같은 야구팀의 골수팬이라는 사실을 알게 됐다고 하자. 해당 사실은 예측하려는 행위(우리 회사에서 일을 행복하게 오래 잘할지 여부)와 관계가 없기 때문에 무시해야 하는 정보다.

[한경 BIZ School] 데이터 분석, '사실'은 있지만 '진실'은 없다

이번 칼럼에서는 피플 애널리틱스의 맥락에서 데이터 분석을 수행할 때 활용할 수 있는 데이터 분석 기술과 각각의 한계점을 간단히 살펴보자. 분석 기술의 장점과 한계를 이해한다면 나의 주관적 경험과 지식을 분석 알고리즘이 발견한 패턴과 조화해 더 좋은 의사결정을 내릴 수 있을 것이다.

# 기술 분석

데이터에 대한 요약(총합, 평균, 최댓값, 비율 등)이 필요한 경우 기술분석(여기서 기술은 묘사한다는 의미)을 한다. 복잡한 분석 기법이 반드시 좋은 것은 아니다. 만약 분석 목적이 서로 다른 집단 사이에 차이가 존재하는지 확인하는 것이라면 기술 분석이면 충분하다.

세일즈포스라는 글로벌 고객관리(CRM) 솔루션을 판매하는 회사는 영업직원을 채용할 때 기업용 소프트웨어를 판매해본 적이 있는 사람들로 채용 풀을 제한해왔다. 하지만 피플 애널리틱스 팀에서 가장 뛰어난 영업사원 100명의 데이터를 분석해 입사 전 기업용 소프트웨어 판매 경험이 영업사원의 성과와 관계가 없다는 걸 확인했고, 이후 다채로운 경력의 후보자를 대상으로 채용 풀을 확장할 수 있었다. 기존에 통용되는 믿음·가설(소프트웨어 판매 경험은 영업사원의 업무 성과와 관련이 있다)이 있었고, 소프트웨어 판매 경험이 있는 우수 영업사원과 그렇지 않은 우수 영업사원의 비율을 비교하는 것만으로 해당 믿음·가설이 객관적 근거가 없음을 입증한 것이다.

집단 사이의 평균값을 비교하는 기술 통계 방식의 장점이 쉽고 직관적인 것이라면 단점은 분석 대상을 어떻게 나눠서 평균값을 비교하느냐에 따라 서로 다른 결과가 나올 수 있다는 것이다. 심슨의 역설이라고도 불리는 이 문제를 직원 퇴사율을 예로 살펴보면 아래 그림과 같다.[그림]

퇴사율을 사업장 단위(하나의 차원)로 비교했을 때는 B사업장이 높았지만, 사업장별 퇴사율을 남녀로 한 번 더 쪼개서(두 개의 차원 사용) 비교한 경우는 남녀 모두 A사업장의 퇴사율이 높게 나왔다(B사업장에 퇴사율이 상대적으로 높은 여자 비율이 높기 때문에 나타난 현상). 이처럼 낮은 차원에서 주요 지표를 비교하면 복잡다단한 현실이 뭉뚱그려진 수치로 제시될 수 있다는 점을 유념하자.

# 예측 분석

인사 영역에서 예측 분석이 어려운 이유는 우리가 이해·예측하고자 하는 행위와 관련된 정보의 많은 부분을 데이터(예측·설명변수)로 담아내기 힘들기 때문이다. 특히 팀 단위로 움직이는 지식 노동자 성과는 개인의 노력·재능·경험 못지않게 경쟁·경제 상황, 동료·부서장과의 관계 등 개인의 통제 밖에 있는 우발적이고 정량화하기 힘든 요인들의 영향으로 정확한 예측모형을 수립하기 어렵다.

온라인에서 소비자가 구매할 확률이 높은 상품을 추천하는 경우와 같이 마케팅 영역에서는 모형의 예측력이 설명력보다 중요하다. 이전과 비교해 고객 구매율이 올랐다면 모형의 투명성과 설명력은 크게 중요하지 않다. 인사는 예측력보다 설명력이 우선시돼야 한다. 인사 데이터 분석은 최신 인공지능 알고리즘으로 모형의 예측 정확도를 90%까지 끌어올렸다 하더라도 모형의 작동원리에 대해 투명하고 논리적인 설명이 제공되지 않는다면 현실을 더 객관적으로 이해하고 개선해나갈 수 없다. 인사 데이터를 분석할 때는 예측력보다 설명력이 좋은 투명한 알고리즘(회귀분석, 의사결정 트리)부터 사용하는 것이 바람직하다.

우리가 데이터를 분석하는 것은 희미하지만 분명히 존재하는 느낌, 말로 설명하기 힘들었던 직원들의 경향성을 정량적으로 설명하고 주장하기 위해서다. 모두가 공감하고 수긍할 수 있는 진단이 있은 뒤에 처방도 가능하다. 작동방식이 불투명한 모형(블랙박스 모형)을 사용하는 것은 모형의 적용이 가져올 직원들에 대한 잠재적 차별에 대해 투명하고 객관적 근거를 제시하지 못한다는 점에서 법률적 위험이 따를 수도 있다.

데이터 분석 세계에는 근사치로 표현되는 사실만 있지 참값(진실)은 존재하지 않는다. 하지만 사실이 없다면 세상에 대한 해석은 애초에 가능하지 않다. 익숙한 것을 참된 것이라고 믿고 싶어하는 우리 뇌에 분석을 통해 발견한 불편할 수도 있는 사실을 지속적으로 노출시켜 직원들을 있는 그대로 바라보려는 노력이 필요하다.

양승준 < 아이디케이스퀘어드 대표 >

관련 뉴스

1

BNK경남은행, 고객과 ‘영화 관람 행사’ 열어

BNK경남은행은 고객들과 소통하기 위해 ‘영화 관람 행사’를 실시했다고 24일 밝혔다.CGV 창원더시티에서 진행된 영화 관람 행사에는 창원지역 9개 영업점 고객 180여명이 참석했다.초청된 고객들은 행운권 추첨 이벤트를 통해 경품을 제공받고 국내에서 1000만 관객을 돌파한 영화 ‘파묘’를 관람했다.오성호 BNK경남은행 자산관리본부 상무는 "앞으로도 고객들과 좀 더 가까이에서 소통하고 질 좋은 금융서비스를 제공하기 위해 최선을 다하겠다”고 말했다.김보형 기자 kph21c@hankyung.com
2

홈플러스, 초저가 한정수량 '리미티드 특가' 진행

홈플러스가 25일부터 28일까지 4일간, 신선식품 등 주요 먹거리 상품을 한정수량으로 초저가에 판매하는 ‘리미티드 특가’ 행사를 진행한다고 밝혔다. 이번 ‘리미티드 특가’ 행사는 최근 고물가가 지속됨에 따라, 단순히 할인 폭을 늘리는 것을 넘어서 고객들이 많이 찾는 상품을 선정하고 한정된 수량에 할인을 집중, 소비자들이 혜택을 피부로 체감할 수 있도록 한 것이 특징이다. 24일 서울 등촌동 ‘홈플러스 메가푸드마켓’ 강서점에서 모델들이 ‘리미티드 특가’ 주요 할인 상품을 소개하고 있다.홈플러스 제공
3

투자 가뭄에도 AI에는 뭉칫돈 몰린다…스타트업 달파, 설립 1년만에 120억 투자 유치 [Geeks' Briefing]

한국경제신문의 프리미엄 스타트업 미디어 플랫폼 긱스(Geeks)가 24일 스타트업 뉴스를 브리핑합니다.B2B AI 스타트업 달파, 설립 1년만에 프리A 120억 투자 유치AX(AI Experience·AI 경험) AI스타트업 달파가 설립 1년 만에 프리A 투자 120억원을 유치했다. 이번 투자는 주요 투자사인 미래에셋벤처투자를 포함해 인터베스트, DSC인베스트먼트, IMM인베스트먼트, 파트너스인베스트먼트가 신규 투자사로 참여했다. 기존 투자사인 프라이머사제파트너스와 스프링캠프 역시 후속투자를 집행했다. 달파는 시드 13억원에 프리A 120억원을 합해 누적 133억원의 투자를 유치하게 됐다. 달파는 ‘모든 기업들이 AI를 통해 매출 극대화와 비용 최소화를 이루는 것’을 목표로 다양한 기업에 대해 맞춤형 AI 솔루션을 개발하고 공급해왔다.오후두시랩, 비케이브로스와 K-뷰티 친환경 전환을 위한 MOU 체결AI 기반 탄소관리 SaaS 플랫폼 ‘그린플로’를 운영하는 오후두시랩이 친환경 뷰티테크 기업 비케이브로스와 ‘데이터 기반 뷰티산업 친환경 전환’을 위한 전략적 업무협약을 체결했다. 양사는 이번 업무 협약을 통해 △화장품 LCA(전과정평가) 방법론 연구 △탄소배출량 측정을 위한 데이터 공유 및 기술 지원 △협력사업 발굴 및 진행 △공동 마케팅 등 전 세계 친환경 및 지속가능성 트렌드에 맞춰 K-뷰티 경쟁력 강화를 위한 협력을 추진한다.젠테, 1분기에 창사 첫 분기 흑자 달성명품 플랫폼 젠테가 2024년 1분기 226억원의 매출과 5.1억원의 영업이익을 기록하며 창사 이후 처음으로 분기 흑자를 달성했다. 젠테의 분기 흑자와 최대 매출 달성은 분기별 수익성을 넘어 연간 최대 매출 및 수익성 확보 가능성을