사진=로이터
사진=로이터
영어 중심적인 주요 거대언어모델(LLM)의 한계를 극복하기 위해 비영어권 이용자들을 위한 인공지능(AI) 기술 고도화 시도가 이어지고 있다. 전 세계 인구 중 영어 화자는 16%, 하지만 전체 웹사이트 중 63.7%가 영어로 돼있다. 비영어권 기업들은 자국어용 AI를 출시하기 위해 하나둘씩 시장에 뛰어들고 있다.

다국어 겨냥 LLM 나왔다

글로벌 인공지능(AI) 스타트업 투플랫폼은 고속 다국어 온라인 생성 AI 모델 '수트라'를 출시했다고 28일 밝혔다. 50개 이상의 언어를 지원한다. 1000만 건 이상의 대화 데이터를 학습시켰다. 이 데이터를 미세조정해 일관적이고 지속적인 대화 형식의 정보 검색을 구현했다.

수트라는 주요 LLM들이 모두 영어 중심적이라는 문제 의식에서 출발했다. 기존 LLM들은 영어로 사용했을 때 최상의 결과물을 내놓는다. 영어를 잘해야지만 AI를 잘 활용할 수 있는 'AI 디바이드' 현상이 일어나고 있는 것이다. BBC 보도에 따르면 한 엔지니어는 오픈AI의 GPT4에 16개 언어로 동일한 수학 문제를 질문했다. 영어로 질문했을 때 정답률이 아르메니아어·페르시아어 등에 비해 3배가 넘었다. 미얀마어나 암하라어로 질문했을 때 GPT4는 어려운 문제를 하나도 풀지 못했다.

2021년 설립된 투플랫폼은 미국 실리콘밸리가 본사다. 한국과 인도에 지사가 있다. 창업자인 프라나브 미스트리 대표는 인도 출신으로, 매사추세츠공과대학(MIT) 미디어랩에서 박사 과정을 거쳤다. '식스센스' 아이디어를 유명 강연 프로그램 테드에서 발표하면서 관심을 받았다.

수트라는 한국어, 힌디어 등 다양한 언어로 사용할 수 있는 LLM을 만들어보겠다는 목표 아래 탄생했다. 비영어 MMLU 벤치마크에서 선두권의 성적을 기록했다. 한국어, 힌디어 테스트에서 각각 62점, 63점으로 GPT4에 이어 2위를 기록했고, 구자라트어 테스트에서는 1위를 차지했다. 미스트리 대표는 “수트라는 영어로 훈련된 AI 모델로 인해 발생하는 언어 격차를 해소한다는 데 의의가 있다”며 “모두를 위한 AI를 만들고, AI와 인간의 상호작용을 재정의하는 게 회사의 목표”라고 자평했다.

챗GPT는 왜 영어 사용자에만 답을 잘할까

AI는 문장을 이해하기 쉬운 작은 덩어리, 즉 토큰으로 나누는데, 언어 이해도가 낮을수록 더 많은 토큰을 생성한다. 예를 들어 '모렐 버섯에 대해 말해줘'라는 간단한 요청을 토크나이저에 입력할 때 토큰 수는 엉어가 6토큰인데 비해 스페인어는 8토큰, 중국어는 14토큰, 미얀마어는 65토큰이다. 질문에 대한 답변은 더 느리게 나오고, 입력창이 토큰 단위로 제한되기 때문에 비영어권 사용자는 영어 사용자처럼 많은 단어를 한 번에 질문할 수 없다.

오픈AI는 챗GPT의 학습 데이터 중 영어 비율을 공개하지 않고 있다. 챗GPT에 질문하면 "데이터 세트 내 언어 및 비율에 대한 상세 분석은 비공개 정보"라고 답한다. 구글의 바드도 "기밀"이라고만 한다. 다만 메타는 라마2에 대해 비영어권 언어엔 취약하기 때문에 주의해야 한다고 인정했다.

비영어권 각국 정부와 기업들은 자국 언어에 적합한 LLM 개발에 나서고 있다. 인도 전자정보기술부는 크라우드 소싱으로 자국어어의 학습 데이터를 확충하는 ‘바샤 단’ 프로젝트를 진행 중이다. 사람들을 모아 AI에 학습시킬 수 있는 자국어 데이터를 확보하는 게 미션이다. 중국의 알리바바는 베트남어, 인도네시아어, 태국어, 말레이어, 크메르어, 라오스어, 타갈로그어 및 버마어 데이터셋에 대해 사전 훈련한 '동남아LLM(SeaLLM)'을 출시했다. 네이버는 2021년 한국어 LLM을 만들었다.

고은이 기자 koko@hankyung.com