영어 못하면 챗GPT 활용성 뚝?… 非영어에 능한 LLM이 온다 [긱스]

고은이 기자

입력2024.03.28 17:14 수정2024.03.28 17:20

영어 중심적인 주요 거대언어모델(LLM)의 한계를 극복하기 위해 비영어권 이용자들을 위한 인공지능(AI) 기술 고도화 시도가 이어지고 있다. 전 세계 인구 중 영어 화자는 16%, 하지만 전체 웹사이트 중 63.7%가 영어로 돼있다. 비영어권 기업들은 자국어용 AI를 출시하기 위해 하나둘씩 시장에 뛰어들고 있다.

다국어 겨냥 LLM 나왔다

글로벌 인공지능(AI) 스타트업 투플랫폼은 고속 다국어 온라인 생성 AI 모델 '수트라'를 출시했다고 28일 밝혔다. 50개 이상의 언어를 지원한다. 1000만 건 이상의 대화 데이터를 학습시켰다. 이 데이터를 미세조정해 일관적이고 지속적인 대화 형식의 정보 검색을 구현했다.

수트라는 주요 LLM들이 모두 영어 중심적이라는 문제 의식에서 출발했다. 기존 LLM들은 영어로 사용했을 때 최상의 결과물을 내놓는다. 영어를 잘해야지만 AI를 잘 활용할 수 있는 'AI 디바이드' 현상이 일어나고 있는 것이다. BBC 보도에 따르면 한 엔지니어는 오픈AI의 GPT4에 16개 언어로 동일한 수학 문제를 질문했다. 영어로 질문했을 때 정답률이 아르메니아어·페르시아어 등에 비해 3배가 넘었다. 미얀마어나 암하라어로 질문했을 때 GPT4는 어려운 문제를 하나도 풀지 못했다.

2021년 설립된 투플랫폼은 미국 실리콘밸리가 본사다. 한국과 인도에 지사가 있다. 창업자인 프라나브 미스트리 대표는 인도 출신으로, 매사추세츠공과대학(MIT) 미디어랩에서 박사 과정을 거쳤다. '식스센스' 아이디어를 유명 강연 프로그램 테드에서 발표하면서 관심을 받았다.

수트라는 한국어, 힌디어 등 다양한 언어로 사용할 수 있는 LLM을 만들어보겠다는 목표 아래 탄생했다. 비영어 MMLU 벤치마크에서 선두권의 성적을 기록했다. 한국어, 힌디어 테스트에서 각각 62점, 63점으로 GPT4에 이어 2위를 기록했고, 구자라트어 테스트에서는 1위를 차지했다. 미스트리 대표는 “수트라는 영어로 훈련된 AI 모델로 인해 발생하는 언어 격차를 해소한다는 데 의의가 있다”며 “모두를 위한 AI를 만들고, AI와 인간의 상호작용을 재정의하는 게 회사의 목표”라고 자평했다.

챗GPT는 왜 영어 사용자에만 답을 잘할까

AI는 문장을 이해하기 쉬운 작은 덩어리, 즉 토큰으로 나누는데, 언어 이해도가 낮을수록 더 많은 토큰을 생성한다. 예를 들어 '모렐 버섯에 대해 말해줘'라는 간단한 요청을 토크나이저에 입력할 때 토큰 수는 엉어가 6토큰인데 비해 스페인어는 8토큰, 중국어는 14토큰, 미얀마어는 65토큰이다. 질문에 대한 답변은 더 느리게 나오고, 입력창이 토큰 단위로 제한되기 때문에 비영어권 사용자는 영어 사용자처럼 많은 단어를 한 번에 질문할 수 없다.

오픈AI는 챗GPT의 학습 데이터 중 영어 비율을 공개하지 않고 있다. 챗GPT에 질문하면 "데이터 세트 내 언어 및 비율에 대한 상세 분석은 비공개 정보"라고 답한다. 구글의 바드도 "기밀"이라고만 한다. 다만 메타는 라마2에 대해 비영어권 언어엔 취약하기 때문에 주의해야 한다고 인정했다.

비영어권 각국 정부와 기업들은 자국 언어에 적합한 LLM 개발에 나서고 있다. 인도 전자정보기술부는 크라우드 소싱으로 자국어어의 학습 데이터를 확충하는 ‘바샤 단’ 프로젝트를 진행 중이다. 사람들을 모아 AI에 학습시킬 수 있는 자국어 데이터를 확보하는 게 미션이다. 중국의 알리바바는 베트남어, 인도네시아어, 태국어, 말레이어, 크메르어, 라오스어, 타갈로그어 및 버마어 데이터셋에 대해 사전 훈련한 '동남아LLM(SeaLLM)'을 출시했다. 네이버는 2021년 한국어 LLM을 만들었다.

고은이 기자 koko@hankyung.com

관련 뉴스

1

코스포, '슬러시드 15' 참가 스타트업 모집…김기준 카카오벤처스 대표 공식 취임 [Geeks' Briefing]

한국경제신문의 프리미엄 스타트업 미디어 플랫폼 긱스(Geeks)가 27일 스타트업 뉴스를 브리핑합니다.코스포, 부산 슬러시드 2024 ‘슬러시드 15’ 참가 스타트업 모집코리아스타트업포럼이 오는 6월 25일 부산 벡스코에서 열리는 ‘부산 슬러시드 2024(BUSAN Slush’D 2024)’에 참가할 스타트업 ‘슬러시드 15(Slush’D 15)’을 모집한다. 슬러시드(Slush’D)는 핀란드의 대형 스타트업 행사 '슬러시(Slush)’가 진행하는 로컬형 스핀오프 이벤트다. 국내에서는 작년 코스포가 부산에서 처음 개최했다. 슬러시드 15는 ‘도시문제 해결을 통한 지역 창업 생태계 활성화와 글로벌 진출(Glocalizing Busan Startups!)’이라는 행사 취지에 맞춰 지역에 산재한 문제들을 해결하는 스타트업을 발굴 및 소개하는 IR 피칭 프로그램이다. 올해는 예비·초기 스타트업은 물론 글로벌 성장을 목표로 하는 기업까지 참가 기준을 확대 개편했다. 피처링, HS애드에 맞춤형 엔터프라이즈 서비스 공급인플루언서 영향력 분석 스타트업 피처링이 종합광고대행사 HS애드가 피처링의 맞춤형 엔터프라이즈 서비스를 도입해 인플루언서 마케팅의 효율성을 높였다고 밝혔다. 피처링은 1300만개의 인플루언서 데이터와 3억개 이상의 소셜 콘텐츠를 실시간으로 수집 및 분석하는 피처링AI를 기반으로 엔터프라이즈 서비스를 제공하고 있다. 피처링의 엔터프라이즈 서비스는 기업 고객 별 요구에 따라 맞춤형으로 제작돼 마케팅 인사이트를 도출할 수 있도록 다양한 데이터 지표들을 분석 및 제공한다.카카오벤처스, 김기준 신임 대표 공식 취임카카오벤처스 김기준 신임 대표이사가 27일 열린 주주총회와 이사회를 통해 정식 선임됐다. 김 신임 대표는 2012년 카카오벤처스에 합류해 테크 기업 발굴과 후속 지원을 이끌어온 딥테크 투자 1세대다. 김 신임 대표가 제시한 새 비전은 'Beyond VC'다. 혁신 스타트업을 발굴하고 성장을 이끌면서 재무적 성과를 내는 벤처캐피탈 역할에 충실하되, 한계를 정하지 않은 과감한 시도를 통해 필요한 미래를 앞당기겠다는 의지다.퍼스널 아이웨어 브리즘, ‘45일 책임제’ 보증 정책 실시퍼스널 아이웨어 브리즘이 고객 맞춤 안경에 대한 진입 장벽을 낮추고 부담없이 체험해 볼 수 있도록 ‘45일 책임제’ 보증 정책을 실시한다. 자사 매장에서 맞춤 안경 구매 후 45일 이내에 렌즈 초점 불량, 어지러움, 부적응 등의 불편함은 물론 프레임 착용감, 디자인, 사이즈 등에 대한 주관적인 불만족까지 100% 교환 이유가 된다. 반품과 환불을 각각 1회까지 지원해주는 보증 정책을 적용한다.다만 외부 충격에 의한 손상, 파손이 있을 때는 유상 수리 비용이 발생되거나 환불이 불가능하다.카택스, 누적 유류비 환산액 3200억원 달성업무용 차량관리 통합 솔루션 카택스가 서비스 출시 7년 만에 누적 유류비 환산액 3200억원을 달성했다. 카택스는 2017년 국내 최초로 단말기 설치없는 스마트폰 GPS 기반의 자동 운행기록 서비스를 제시한 스타트업이다. 유류비 정산에 어려움을 겪는 법인 고객대상 영수증 없이 실제 주행거리 기반 유류비를 정산 솔루션을 개발하며 성장해 왔다. 2017년 서비스 출시후 카택스에 등록된 차량의 누적 운행거리는 연평균 70%씩 증가해 올해 3월 기준 20억 km를 돌파했다.김주완 기자 kjwan@hankyung.com
2

로봇 스타트업 위로보틱스, 130억원 투자유치 [고은이의 VC 투자노트]

웨어러블 로봇 스타트업 위로보틱스가 130억원 규모 투자 유치를 완료했다고 밝혔다. 이번 투자는 인터베스트가 주도하고 GU투자, JB인베스트먼트, 컴퍼니케이, 하나벤처스, 퓨처플레이가 참여했다.위로보틱스는 착용하는 로봇을 만드는 회사다. 지난해 작업자를 위한 무동력 허리보조 로봇 윕스(WIBS)를 시작으로 올해 2월엔 보행보조 웨어러블 로봇 윔(WIM)의 회사간거래(B2B) 제품을 출시했다. 윔은 1.4kg의 초경량 웨어러블 로봇으로 30초면 탈부착이 가능하다. 기존의 웨어러블 로봇들이 특수한 환경에서 산업용이나 의료용으로 사용되었던 것과 달리 윔은 일반 대중을 위한 걷기운동용 웨어러블 로봇으로 출시된다. 다음달 일반인을 대상으로 편의성과 기능을 강화한 B2C 제품을 출시할 예정이다.윔은 착용자의 자세정보, 보행데이터를 기반으로 착용자의 근골격계 정보를 분석한다. 이 데이터를 기반으로 모드를 선택해 보행자세, 효율성, 근력강화 등을 선택적으로 개선할 수 있다. 고령으로 인해 근력이 저하된 시니어, 질병 이후 보행운동이 지속적으로 필요한 만성환자 등이 활용할 수 있다. 최고기술책임자(CTO)인 김용재 공동대표는 "위로보틱스는 웨어러블 로봇 기술뿐만 아니라 협동로봇, 수술로봇, 로봇 핸드, 휴머노이드 로봇 등 로봇 기술 전반에 걸쳐 우수한 기술력과 연구경력을 가지고 있는 회사"라며 "선행기술개발 연구에 과감한 투자를 하겠다"고 말했다. 고은이 기자 koko@hankyung.com
3

"매달 수천만원씩 날리는데…" 파산조차 못 하는 스타트업들

경영난으로 지난해 임직원을 모두 정리해고한 스타트업 대표 A씨. 더 이상 사업을 이어가기 어렵다고 판단하고 파산 절차를 알아봤다. 하지만 투자사 8곳 중 한 곳에서 파산을 강력하게 반대하면서 이러지도 저러지도 못하는 처지에 놓였다. 당장 매달 수천만 원의 이자를 부담해야 하는 상황에 A씨는 피가 마른다.4년 전 스타트업을 창업한 30대 B씨는 끝까지 회사를 살려보려고 버티다가 빚이 늘어나 개인 파산했다. 5년간 신용불량자가 되는 바람에 스타트업 업계에서 사실상 내쳐졌다. 재창업 도전은커녕 ‘실패자’란 꼬리표가 붙어 사회활동도 어려운 처지다. 파산조차 못 하는 스타트업들27일 업계에 따르면 투자 혹한기에 경영난을 겪는 스타트업들이 급증하면서 폐업과 파산을 둘러싼 갈등이 곳곳에서 벌어지고 있다. 가장 대표적인 게 더 이상 사업 유지가 어렵다고 판단돼 파산이 불가피한 상황에서 일부 투자사가 반대하는 경우다. 투자실적이 중요한 GP(운용사)인 벤처캐피털(VC)들이 LP(출자자) 눈치를 보느라 쉽게 파산에 동의하지 못하는 것이다. 사업 능력 없이 회사 이름만 유지하는 ‘좀비 벤처’가 대거 양산될 수밖에 없는 구조다.한 스타트업은 투자사 7곳의 파산 동의를 모두 받고도 투자사 한 곳의 동의를 얻지 못해 파산 절차를 차일피일 미루고 있다. 투자업계 관계자는 “망할 때 망하더라도 파산 동의는 해줄 수 없다는 투자사 때문에 회사는 물론 나머지 투자사들이 모두 답답해하는 중”이라며 “파산 동의를 하면 포트폴리오 하나가 날아가고 고스란히 확정 손실로 잡히기 때문에 LP 눈치를 보면서 판단을 미루는 것”이라고 했다. 동의 없이 파산할 경우 형사 고소하겠다며 스타트업에 엄포를 놓는 투자사도 있다.창업자가 투자자에게 알리지 않고 폐업하거나 다른 사람에게 회사를 몰래 판 후 잠적하는 사례도 있다. 적기에 폐업을 선택하지 못하고 끝까지 버틴 창업자가 개인 빚을 잔뜩 지고 신용불량자가 되기도 한다. 로펌업계 최초로 VC를 설립한 최철민 최앤리법률사무소 대표변호사는 “예전엔 스타트업 청산은 있어도 파산은 거의 없었는데 최근 일 년 새 어려워진 스타트업의 파산이 눈에 띄게 늘었고, 이 과정에서 다양한 갈등이 생겨나고 있다”고 말했다. M&A도 꽁꽁…퇴로가 없다벤처 혹한기에 스타트업들은 몸값을 대폭 낮춰 투자 유치를 도모하거나 다른 기업에 회사를 파는 형식으로 출구전략을 짠다. 문제는 한국 벤처시장 특성상 둘 다 쉽지 않다는 것이다. 한 VC 심사역은 “자금이 수혈되면 다시 살아날 기업들이 꽤 있는데 후속 투자를 받는 게 녹록지 않다”며 “직전 투자보다 기업가치를 낮추면 기존 투자자 중 한두곳이 꼭 반대하기 때문”이라고 토로했다. 몸값을 깎아 신주를 발행할 경우 기존 투자자 입장에선 특별한 이익 없이 지분이 희석된다.스타트업 인수합병(M&A) 시장도 얼어붙었다. 차세대 유니콘으로 꼽혔던 한 스타트업은 중견기업과 매각 논의를 하다가 결국 어그러졌다. 논의 과정에서 수천억 원에 달했던 기업가치를 크게 깎았지만, 인수 기업 측에서 더 낮은 값을 요구했다. 지난해 스타트업 M&A는 53건으로 전년(126건) 대비 57.9% 급감했다. 온라인 클래스 기업인 클래스101이 경영난을 겪던 스튜디오바이블을 인수하는 등 일부 불황형 M&A가 있었지만 소수 사례다. 카카오 등 빅테크가 ‘문어발’이라는 비판에 사실상 M&A를 멈추면서 작은 스타트업의 퇴로가 사라졌다.스타트업 전문 법무법인인 미션의 김성훈 대표변호사는 “투자도 못 받고 팔지도 못하면 결국 재기불능 상태로 가는 것”이라며 “지금이 사업을 정리할 때라는 걸 모두가 아는 데도 결론을 못내 피해 규모를 키우고 법적인 리스크까지 안게 되는 사례가 많다”고 했다. “재창업 합의 모델 필요”스타트업은 창업 초기 수억 원의 정책자금을 통해 덩치를 키워온 경우가 많다. 사업전환이나 재창업 기회 없이 무너지면 결국 국가 차원의 기회비용이 커지는 셈이다. ‘아름다운 퇴장’을 위한 제도적 보완이 절실하다는 목소리가 나오는 이유다.미국 실리콘밸리나 싱가포르는 투자사들이 보유 지분만큼 의사결정 권한을 갖는 등 폐업 등 주요 결정을 둘러싼 갈등 해결 시스템이 정착돼있다. 모든 투자사가 투자계약서를 쓸 때 폐업 동의권 조항을 넣는 한국과는 문화가 다르다. 최 변호사는 “미국은 재창업과 재투자 사이클이 짧은데 한국은 이보다 훨씬 보수적”이라며 “회사 대표자가 성실하게 경영했다면 모든 투자자의 동의를 받지 않더라도 파산 페널티를 크게 물리지 말아야 한다”고 했다.창업자가 새로운 사업으로 재도전할 때 투자사들이 기존 권리 행사를 유예하고 다시 기회를 주는 재창업 모델이 자리 잡아야 한다는 주장도 나온다. 김 변호사는 “신용보증기금 등 정책금융기관에서 스타트업에 특화된 워크아웃 제도를 마련할 필요도 있다“고 말했다. 박정은 스타트업얼라이언스 이사는 “한국은 스타트업들이 경영난을 수면 위로 드러내는 경우가 거의 없는데 필요한 경우 상황을 오픈하고 도움을 받아야 한다”고 했다.해외엔 스타트업 청산을 돕는 서비스들이 주목받고 있다. 미국의 선셋, 심플클로저, 카르타 등은 어려워진 기업들이 자산을 처분하는 일을 돕고 빠르게 폐업 절차를 밟을 수 있도록 지원한다. 고은이 기자 koko@hankyung.com