대학생 교육용 국내 빅데이터 '全無'…석·박사급 전문인력도 태부족

규제에 꽁꽁 묶인 데이터 경제
(3·끝) 데이터 산업 키울 토양 척박

"익명정보는 자유롭게 쓰게해야"
"2022년 전문가 3237명 부족"
연세대는 지난 2월 빅데이터 전문가를 키우기 위해 ‘디지털애널리틱스융합협동 석사과정’을 열었다. 이 과정은 시작부터 난항을 겪었다. 개인정보 규제 탓에 실습에 필요한 교육용 데이터를 구하는 게 아예 불가능했다.

학생 지도를 총괄하는 이원석 연세대 컴퓨터과학과 교수는 “해외에서 데이터를 구하지 못했으면 수업을 못할 뻔했다”며 “한국이 아니라 미국 데이터 전문가 과정을 운영하는 것 같아 뒷맛이 개운치 않다”고 말했다.
그래픽=허라미 기자 rami@hankyung.com
“익명 데이터라도 풀어야”

정부는 지난해 8월 ‘데이터 경제’ 시대를 선언하면서 5만 명의 전문인력을 양성하겠다고 밝혔다. 연세대의 디지털애널리틱스융합협동 석사과정은 이 같은 분위기를 타고 개설됐다. 하지만 일선 대학들은 전문가를 키울 여건이 마련돼 있지 않다고 지적한다. 교육용 데이터만이라도 개인정보법의 예외를 인정해야 한다는 목소리가 커지고 있다.

이 교수 등 빅데이터 전문가들은 캐글(Kaggle) 등 해외 사이트를 통해 개인정보가 담긴 데이터 세트를 얻고 있다. 캐글 한 곳에서 제공하는 데이터 세트만 1만5000개에 이른다. 금융, 의료 등 다양한 분야의 가명 및 익명정보를 무료로 준다. 이곳에 등록된 데이터들은 개인을 특정할 수 없도록 ‘비식별 조치’를 거쳤다. 개인정보가 빠져나갈 우려가 크지 않다는 얘기다.국내에선 개인정보를 담은 데이터 세트를 수집하고 유통하는 게 쉽지 않다. 현행 개인정보보호법에는 비식별 조치에 대한 정의 자체가 없다. 데이터를 안전하게 비식별화해도 법적 문제에 휘말리기 쉬워 민간 기업이나 공공기관이 데이터 공개에 소극적이다.

개인정보와 무관한 데이터 세트를 구하는 일도 만만찮다. 정부는 2016년 ‘K-ICT 빅데이터 센터’를 설립, 건강보험심사평가원과 통계청 등이 만든 데이터 세트를 무료로 개방하고 있다. 하지만 센터에 등록된 데이터 세트가 200여 개뿐이다.

정부는 공익·학술적 목적에 한해 ‘가명정보’를 사후 동의 없이 사용할 수 있게 하는 방안을 추진 중이다. 가명정보란 개인정보를 보호하기 위해 특정인을 식별할 수 있는 정보를 일부 지운 것을 말한다.전문가들은 개인정보 관련법 개정안이 국회를 통과하더라도 가명정보를 교육용으로 쓰는 일은 쉽지 않을 것으로 내다봤다. 정부가 지정한 소수의 외부 전문기관에서 비식별 조치를 제대로 취했는지 일일이 평가한 뒤에야 데이터 세트 한 개가 나오기 때문이다.

학계에선 개인을 식별할 수 있는 정보를 완전히 지우거나 새로운 데이터값으로 대체한 ‘익명정보’ 데이터가 대안이 될 수 있다고 설명한다. 여러 데이터를 결합해도 개인의 신분이 드러나지 않기 때문에 개인정보보호법에서 자유롭다는 논리다. 캐글에 올라온 데이터 중 상당수도 익명 데이터다.

“인력난 상당기간 이어질 것”한국데이터진흥원에 따르면 2017년 기준 국내 빅데이터 직무 종사자는 9955명이다. 이 중 빅데이터 연구의 핵심으로 꼽히는 빅데이터 분석가와 데이터 사이언티스트는 각각 1108명, 1803명으로 전체의 29.2%에 불과한 것으로 나타났다. 그만큼 데이터를 연구할 고급 인력이 부족하다. 소프트웨어정책연구소는 2022년까지 국내 빅데이터 인력 중 석·박사급 인재가 3237명 모자랄 것으로 예상했다.

국내 대학들은 빅데이터 관련 학과를 개설해 학사급 인재 양성에 나서고 있다. 대학정보 공시 사이트 ‘대학알리미’에 따르면 올해 개설된 빅데이터 관련 학과는 40개에 달한다. 이들이 산업계의 수요를 충족할 수 있을지는 미지수다. 기존 통계학과를 빅데이터학과로 명칭만 바꾼 사례가 상당하다는 지적이다.

고급 인력을 양성할 수 있는 대학원급 교육기관은 더 희귀하고 정원도 많지 않다. 서울대는 2020년 ‘데이터사이언스 전문대학원’을 설립해 본격적으로 전문 인재 양성에 나설 예정이다. 이 대학원의 정원은 60명에 불과하다. 연세대의 디지털애널리틱스융합협동 석사과정도 상황이 비슷하다. 현재 등록된 학생은 30명뿐이다.빅데이터 인재가 부족한 가운데 글로벌 정보기술(IT) 기업들은 고급 인력을 블랙홀처럼 빨아들이고 있다. 미국 구직정보업체 글라스도어는 데이터 사이언티스트를 3년(2016~2018년) 연속 미국 최고의 직업으로 꼽았다. 사이언티스트는 평균 연봉이 11만달러(약 1억2300만원)에 달한다. 국내 IT업계 관계자는 “단기간에 전문가 수준의 인재를 육성하는 것이 아니어서 국내 빅데이터 인력난은 당분간 계속될 것으로 보인다”고 말했다.

배태웅 기자 btu104@hankyung.com

핫이슈