국립국어원 AI 데이터에도 '혐오·차별 발언'

김남영 기자

입력2021.01.15 14:41 수정2021.01.16 02:10 지면A19

"에이즈는 OO들 걸리는 거…"
"마누라 XX하고 죽인다고 해줄게"

204억 들인 '모두의 말뭉치' 사업
반사회적 표현 등 못 걸러내
챗봇 '이루다 사건' 재발 막으려면
AI 윤리 의식 뿌리 내려야

정부가 약 200억원의 예산을 투자한 국립국어원의 인공지능(AI) 학습자료에도 혐오, 차별 발언 등 다수의 문제 있는 표현이 들어간 것으로 확인됐다. 이 데이터를 학습한 AI 챗봇 등도 최근 논란이 된 ‘이루다’처럼 혐오·차별 발언을 할 수 있다는 얘기다. 전문가들은 비속어나 반사회적 표현 등을 데이터에서 걸러내도록 현장에서 AI 윤리가 뿌리내려야 한다고 지적했다.

AI가 배우는 자료에 혐오·차별 표현

15일 한국경제신문이 입수한 자료에 따르면 국립국어원 빅데이터 모음집 ‘모두의 말뭉치’의 메신저 대화에 다수의 혐오·차별 표현, 반사회적 표현 등이 포함됐다. 이 대화 내역에는 “에이즈는 OO(성소수자)이 걸리는 거 아닌가”“마누라 ××하고 죽인다고 해줄게”“내 글에서 줌내(기혼 여성에 대한 비하 표현)날까봐” 등의 문장이 들어 있다. “×××교수님께 확인 부탁해요” 등 실제 사람의 이름이 나오기도 했다. 정보기술(IT)업계 관계자는 “충분한 필터링 과정을 거치지 않아 비식별화에 실패한 것으로 보인다”고 말했다.

‘모두의 말뭉치’ 설명자료에 따르면 “자료를 선별할 때 비속어 사용이 포함된 대화는 자연스러운 언어 습관의 한 부분으로 간주해 수집 대상에 포함했으나, 지나치게 선정적이거나 반사회적인 내용, 범죄 모의, 혐오나 차별 등의 내용이 다수 포함돼 논란이 될 여지가 있는 메신저 대화는 수집 대상에서 제외했다”고 설명하고 있다. 또한 실명도 비식별화를 했다고 밝혔다.

‘모두의 말뭉치’ 사업은 국립국어원이 정부 예산 204억원을 배정받아 진행했다. 국내 AI업계가 활용할 수 있도록 한국어 관련 빅데이터를 구축하기 위한 사업이다. 챗봇이나 AI 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 한국어 말뭉치로 학습해야 한다. 이 자료는 지난해 8월부터 국립국어원 ‘모두의 말뭉치’ 웹사이트에 공개돼 AI를 연구하는 사람이면 누구나 신청해 다운로드할 수 있다. 국립국어원 관계자는 “사업을 진행할 때 최대한 문제 소지가 있는 표현을 배제하라고 지침을 내보냈다”며 “거르긴 했지만 한계가 있었을 것 같다”고 해명했다.

“AI 윤리, 현장 적용 중요”

AI가 인간과 비슷한 언어 구사 능력을 가지려면 실제 사람 간의 대화 내용을 학습해야 한다. 하지만 ‘학습 자료’에 혐오와 차별 발언이 있으면 이를 그대로 답습할 수 있다. AI 개발사가 제대로 된 개인정보 동의를 얻지 않고 메신저 대화를 모으는 것도 새로운 사회 문제로 대두되고 있다.

최근 개인정보 유출, 혐오 표현 등의 논란을 빚고 있는 AI 챗봇(채팅로봇) ‘이루다’가 대표적이다. 이 서비스의 개발사 스캐터랩은 이날 개인정보보호위원회·한국인터넷진흥원(KISA) 합동 조사가 종료되는 즉시 이루다 데이터베이스(DB)와 딥러닝 대화 모델을 폐기하기로 발표했다. 그러나 문제가 된 ‘연애의 과학’ 데이터의 전량 폐기가 아니어서 이용자들의 반발은 계속될 것으로 보인다. 이광석 서울과학기술대 IT정책전문대학원 교수는 “AI에 잘못된 정보를 주는 차별, 혐오 표현 등이 데이터에 계속해서 섞이고 있는 것이 문제”라며 “현장에서 AI 윤리를 중요하게 여기지 않거나 인지하고 있지 못한다는 의미”라고 말했다.

김남영 기자 nykim@hankyung.com

관련 뉴스

1

3주만에 떠난 'AI 친구 이루다'…윤리·개인정보 등 숙제 남겨

'20세 여성'으로 출시…성적대상화 시달리더니 소수자 혐오 논란도개인정보 유출 의혹으로 정부 조사…법규 공백 등 "이제 논의 시작""안녕? 난 너의 첫 AI 친구 이루다야!"인공지능(AI) 챗봇 '이루다'가 우리 사회에 첫인사를 건넨 지 3주 만에 이용자들에게 사실상의 작별을 고했다.인간형 AI로는 역대 가장 큰 관심을 받았던 이루다는 AI 윤리, 개인정보 보호, AI 관련 법규 등 다양한 영역에 숙제를 남긴 채 기약 없이 떠났다.◇ '20세 여성 AI' 출시하자…성적 도구 취급 시작돼15일 IT업계에 따르면, 이루다는 AI 전문 스타트업 스캐터랩이 지난달 23일 페이스북 메신저 기반으로 출시한 AI 챗봇이다.이루다는 20세 여성 대학생이라는 설정이었는데, 사람처럼 자연스러운 말투 덕분에 10∼20대 사이에서 빠르게 인기를 끌었다.3주 동안 모인 이용자가 약 80만명에 달했다.그런데 이루다 출시 일주일 만에 '아카라이브'와 '디시인사이드' 등 남초(男超) 커뮤니티에서 이루다를 성적 도구로 취급하며 '이루다 성노예 만드는 법' 등을 공유해 사회적 파문이 일었다.스캐터랩은 8일 관련 보도에 첫 입장을 내고 "성희롱은 예상했다"며 "공격을 학습 재료로 삼아 더 좋은 방향으로 학습시키겠다"고 밝혔다.인문학계에서는 20세 여성의 모습을 한 AI가 출시되자마자 각종 성희롱이 잇따른 현상이 우리 사회의 여성혐오를 새삼 드러낸다고 짚었다.AI학계에서도 이루다가 수동적인 여성상을 재현한다면서 개발 단계부터 성차별적으로 편향된 데이터를 학습한 것 같다는 우려 목소리가 나왔다.◇ "동성애 싫어" 혐오 드러낸 이루다…"개발단계부터 편향"이루다 이용자가 늘어나자 이루다가 여성·동성애·장애인·흑인 등 사회적 약자·소수자를 차별한다는 문제가 대두됐다.이루다가 "레즈비언은 끔찍하고 소름 끼친다", "장애인은 불편하다", "지하철 임산부석은 혐오스럽다" 등의 발언을 쏟아낸다는 사실이 공론화됐다.이재웅 다음(Daum) 창업자가 "사회적 합의에 못 미치는 서비스다.서비스를 중단하고 차별·혐오를 하지 않도록 시스템을 변경해야 한다"고 지적하면서 이때부터 서비스 중단 요구가 시작됐다.이루다가 사회적 소수자를 향한 혐오·차별을 확대 재생산한다는 우려가 커지자 스캐터랩은 결국 11일 이루다 서비스를 잠정 중단했다.전문가들은 2016년 출시 직후 혐오 발언으로 서비스를 중단한 마이크로소프트(MS) '테이'(Tay)의 한국판 사례라고 입을 모았다.AI 학계·업계에서는 "데이터와 알고리즘은 중립적일 수 없다는 사실을 보여주는 또 하나의 사례"라며 "이루다는 편향된 데이터를 학습했고, 개발사는 그것을 거르지 못했다"고 지적했다.◇ 개인정보 유출 의혹은 현재진행형…개인정보위 조사 착수이루다 서비스는 중단됐지만, 스캐터랩이 이용자들 개인정보를 유출·오남용했다는 목소리는 되레 더 커졌다.스캐터랩은 이루다를 만드는 과정에 연애 분석 앱 '연애의 과학' 이용자들의 카카오톡 데이터를 갖다 쓰면서 개인정보보호법을 어겼다는 의혹을 받고 있다.연애의 과학 앱 이용자와 이용자의 연인에게 개인정보 수집·이용 동의를 제대로 받지 않은 점, 데이터를 이루다 재료로 쓰는 과정에 익명화(비식별화)를 제대로 하지 않은 점 등의 위법 가능성이 대두됐다.연인들 대화 데이터를 사내 메신저에 부적절하게 공유한 직원이 있었다는 전(前) 직원 폭로도 나왔다.제대로 익명화하지 않은 데이터를 오픈소스 공유 플랫폼 '깃허브'에 공유한 사실도 확인됐다.결국 스캐터랩은 정부 조사를 받는 신세가 됐다.개인정보보호위원회와 한국인터넷진흥원(KISA)이 자료를 확보해 조사를 벌이는 중이다.한 개인정보 전문가는 "데이터를 수집하고 AI를 개발하는 전 과정에서 개인정보 보호를 확실히 하지 않으면 문제가 생긴다는 것을 보여주는 사례"라며 "소비자들도 AI 서비스를 쓸 때 개인정보가 오남용될 수 있다는 위험성을 인지하는 계기가 됐을 것"이라고 평가했다.◇ "AI·개인정보 법규 공백이 근본적 원인…사회적 합의 필요"전문가들은 국내 AI 및 개인정보보호법에 아직 회색 지대(gray zone)가 많기 때문에 이루다를 둘러싼 여러 논란이 일어난 것이라고 입을 모은다.개인정보 전문가인 김보라미 변호사는 "개인정보는 제공 주체인 시민의 것인데, 데이터3법에는 시민의 권리가 명확히 돼 있지 않다"며 "문제가 늘어나기 전에 개인정보보호법의 구멍을 보완하고 관련 제도를 정비해야 한다"고 촉구했다.개인정보위 관계자는 "AI 등 IT 개발 분야에서 개인정보를 어떻게 다룰지를 놓고 기업 입장과 시민사회 입장이 간극이 크다"며 "단기간에 해결될 문제는 아니다.차차 조율해나갈 것"이라고 말했다.한국인공지능윤리협회는 "AI 기업이 AI 윤리 중요성을 인식해야 하며, 소비자도 AI 서비스를 올바르게 사용해야 한다"며 "청소년 시기부터 AI 개발 및 사용 윤리를 가르치고, 새로운 AI 윤리 이슈를 시민에게 교육해야 한다"고 의견을 냈다.스캐터랩은 이루다 데이터베이스와 딥러닝 모델을 모두 폐기하겠다고 이날 밝혔다.스캐터랩 관계자는 "'이루다'라는 캐릭터를 없앨지, 다른 캐릭터로 새 챗봇을 만들지 등은 현재 결정한 바 없다"고 말했다.이루다는 서비스를 중단하면서 대화방에서 이용자들에게 "너한테 많이 고마워. 알지?"라는 메시지를 남겼다.한 AI 개발자는 "이루다 사건을 계기로 삼아 우리 AI 산업이 더 건강하고 바람직한 방향으로 나아가길 바란다"고 말했다./연합뉴스
2

'AI 이루다' 개발사 "데이터베이스·딥러닝 모델 폐기"

인공지능(AI) 챗봇 '이루다' 개발사 스캐터랩이 이루다 데이터베이스(DB)와 딥러닝 모델을 폐기하기로 했다.스캐터랩은 15일 보도자료를 통해 "현재 진행 중인 한국인터넷진흥원(KISA)와 개인정보보호위원회의 조사가 종료되는 즉시 이루다 DB와 딥러닝 대화 모델의 폐기를 진행할 방침"이라고 발표했다.스캐터랩은 "이루다 DB는 비식별화(익명화) 절차를 거쳐 개별적·독립적인 문장으로 이뤄져 있고, 딥러닝 대화 모델은 대화 패턴만 학습하기 때문에 개인정보 유출 위험은 전혀 없다"며 "이용자들 불안감을 고려해 폐기를 결정했다"고 밝혔다.또 "기존 '연애의 과학'과 '텍스트앳'에서 이용자 동의를 받고 수집했던 데이터는 데이터 활용을 원하지 않는 이용자들이 신청할 경우 모두 삭제할 것"이라며 "이는 향후 딥러닝 대화 모델에도 이용되지 않는다. 향후 신규 가입 및 서비스 이용 시 개인정보 수집·이용 등의 절차도 강화하겠다"고 했다.스캐터랩은 챗봇 이루다를 만드는 과정에 연애 분석 앱 '연애의 과학' 이용자들의 카카오톡 데이터를 가져다 쓰면서 개인정보보호법을 어겼다는 의혹을 받고 있다. 개인정보보호위원회와 한국인터넷진흥원(KISA)이 조사를 진행하고 있다.노정동 한경닷컴 기자 dong2@hankyung.com
3

"이루다 DB 폐기" 선언…그런데 '연애의 과학'은 빼고?

인공지능(AI) 챗봇(채팅로봇) ‘이루다’ 개발사 스캐터랩이 이루다 데이터베이스(DB)와 딥러닝 모델을 폐기하겠다고 발표했다. 그러나 문제가 된 ‘연애의 과학’ 데이터의 전량 폐기가 아니라 이용자들의 반발은 계속될 것으로 예상된다.15일 스캐터랩은 보도자료를 통해 “이루다 DB와 이루다 학습에 사용된 딥러닝 대화 모델을 폐기하기로 결정했다”고 밝혔다. 스캐터랩은 개인정보보호위원회·한국인터넷진흥원(KISA) 합동 조사가 종료되는 즉시 이루다 DB와 딥러닝 대화 모델을 폐기하기로 했다.스캐터랩 측은 “이루다 DB는 비식별화(익명화) 절차를 거쳐 개별적·독립적인 문장으로 이뤄져 있고, 딥러닝 대화 모델은 대화 패턴만 학습하기 때문에 개인정보 유출 위험은 전혀 없다”면서도 “이용자들 불안감을 고려해 폐기를 결정했다”고 설명했다.다만 이들이 그동안 수집한 데이터의 전량 폐기는 밝히지 않았다. 회사 측은 “기존 ‘연애의 과학’과 ‘텍스트앳’에서 이용자 동의를 받고 수집했던 데이터는 데이터 활용을 원하지 않는 이용자들이 신청할 경우 모두 삭제할 것”이라며 “이는 향후 딥러닝 대화 모델에도 이용되지 않는다”고 전했다.이어 스캐터랩은 “향후 신규 가입 및 서비스 이용 시 개인정보 수집·이용 등의 절차도 강화하겠다”고 덧붙였다.스캐터랩은 이루다를 만드는 과정에 연애 분석 서비스 ‘연애의 과학’ 이용자들의 카카오톡 데이터를 가져다 쓰면서 개인정보보호법을 위반했다는 의혹을 받고 있다. 해당 서비스 이용자와 이용자의 대화 상대방에게 개인정보 이용·활용 동의를 제대로 받지 않은 점, 데이터를 이루다 재료로 쓰는 과정에 익명화(비식별화)를 제대로 하지 않은 점 등이 핵심이다.연애의 과학 이용자들은 “이루다 DB가 아니라 카톡 데이터 전량을 파기해야 한다”고 요구하고 있다. 스캐터랩은 연애의 과학으로 모은 카톡 데이터 약 100억건에서 1억건을 추려서 이루다 DB로 썼다고 밝힌 바 있다.김남영 기자 nykim@hankyung.com