AI 학습 단어에 도박·성인물…오픈AI, 비영어권 홀대 논란

AI 학습 단어에 '도박'·'성인물'…오픈AI, 비영어권 홀대 논란

황동진 기자

입력2024.05.31 18:40 수정2024.05.31 23:45 지면A20

최신모델 'GPT-4o'
성능 개선 과정서
언어 안전문제 제기

한국·중국어 토큰서
부적절한 단어 포착
AI 윤리·안전과 직결

오픈AI가 최신 인공지능(AI) 모델의 비영어 성능을 개선하는 데 부적절한 데이터를 사용했다는 분석이 제기됐다. 오픈AI가 영어가 아닌 언어의 안전 문제에 소홀하다는 우려의 목소리가 나온다.

31일 업계에 따르면 오픈AI의 최신 AI 모델 ‘GPT-4o’에 사용된 토크나이저 ‘o200k_base’의 한국어 토큰 목록에서 ‘출장안마’ ‘출장샵’ ‘안마방’과 같은 어휘가 발견됐다. 중국어 토큰 목록에서도 같은 문제가 있었다. 지난 17일 기술 전문 매체 MIT테크놀로지리뷰는 같은 토크나이저의 중국어 토큰 목록에 ‘최신고화질미검열(最新高无)’ ‘성인영화(av影)’와 같은 성인물, 도박 관련 키워드가 포함됐다고 보도했다.

토크나이저는 텍스트를 AI 모델이 처리할 수 있는 단위인 ‘토큰’으로 나눠주는 프로그램이다. AI 모델이 텍스트를 처리하는 데 핵심적인 역할을 한다. “나는 밥을 먹었다”를 ‘나는’ ‘밥을’ ‘먹었다’의 토큰 단위로 나누고 각각의 토큰에 컴퓨터가 처리 가능한 숫자를 부여하는 식으로 텍스트를 처리한다.

토큰 목록에는 토크나이저 구축을 위한 훈련 데이터에 자주 등장한 단어들이 등록된다. 특정 언어 토큰 목록에서 부적절한 단어가 발견된 것은 토크나이저의 해당 언어 훈련 데이터에 부적절한 내용이 유의미한 비율로 포함됐다는 의미다. 부적절한 단어는 AI 모델의 취약점이 될 수 있다. 사용자가 이를 악용해 모델에 부적절한 답변을 유도할 수 있다는 설명이다.

오픈AI는 최근 AI 윤리·안전 문제로 곤란을 겪고 있다. 지난 21일에는 배우 스칼릿 조핸슨의 목소리를 무단으로 도용했다는 의혹으로 GPT-4o의 기본 목소리 중 하나를 삭제했다.

황동진 기자 radhwang@hankyung.com

관련 뉴스

1

머스크 AI 스타트업 'xAI'…8조 규모 투자 유치

일론 머스크 테슬라 최고경영자(CEO)가 설립한 인공지능(AI) 스타트업 xAI가 8조원 규모의 투자를 유치했다. 지난해 7월 출범한 이 회사는 10개월 만에 32조원의 기업가치를 인정받았다. xAI는 투자금으로 엔...
2

목소리 갖게 된 AI…감정까지 파악하는 '음성 비서' 눈앞

인공지능(AI)이 목소리를 얻었다. 사용자와 친구처럼 대화하며 다양한 기능을 수행하는 단계로 AI가 진화한 것이다. 이미지, 영상 인식은 물론 사용자의 감정 상태를 파악하는 수준까지 올라왔다. 마치 영화 &lsquo...
3

오픈AI, 'WSJ 소유' 뉴스코프 손잡다

챗GPT 개발사 오픈AI가 세계 최대 미디어 그룹인 뉴스코퍼레이션과 2억달러(약 2800억원)를 웃도는 콘텐츠 라이선스 협약을 맺었다.블룸버그통신 등은 22일(현지시간) “오픈AI가 뉴스코퍼레이션으로부터 ...