카카오가 ‘초(超)거대 인공지능(AI)’ 구축을 본격화한다. 한국어 특화 AI 언어 모델 ‘KoGPT’를 처음 공개했다. 플랫폼업계 ‘맞수’ 네이버와의 AI 기술 확보 경쟁이 달아오르고 있다.
카카오, 한글 특화 인공지능 공개…네이버와 '토종 AI 경쟁' 불붙었다

한국어 특화 AI 모델 개발

카카오 AI 전문 자회사인 카카오브레인은 ‘KoGPT’를 글로벌 오픈소스 커뮤니티인 깃허브에 공개했다고 16일 밝혔다. ‘KoGPT’는 오픈 API(응용프로그램 인터페이스) 언어 모델 ‘GPT-3’의 한국어 특화 버전이다. 60억 개 매개 변수와 2000억 개 토큰(token) 규모의 한국어 정보로 구축했다. ‘GPT-3’는 인간과 AI가 자연어를 바탕으로 소통할 수 있도록 감정 분석까지 갖춘 AI 기술이다.

일론 머스크 테슬라 최고경영자(CEO)가 설립한 AI연구소인 오픈AI가 ‘GPT-3’를 개발했다. 역대 최고의 자연어 처리 기반 AI로 평가받는 오픈AI의 ‘GPT-3’를 분석해보면 97%가 영어다. 한국어는 0.01%에 불과하다.

‘KoGPT’는 한국어를 사전적, 문맥적으로 이해하며 문장의 긍정과 부정 판단, 긴 문장 한 줄 요약, 결론 예측, 문맥을 이해하고 질문에 답하기 등 다양한 언어 과제를 처리할 수 있다. 김일두 카카오브레인 대표는 “앞으로 GPT 기술의 크기와 성능을 100배로 키울 것”이라며 “GPT를 오픈소스로 개방해 일반 대학과 스타트업 등의 기술 접근성을 높일 것”이라고 밝혔다.

네이버도 지난 5월 초거대 AI인 ‘하이퍼클로바’를 공개했다. AI 모델의 크기와 성능을 보여주는 매개 변수가 2040억 개다. 오픈AI의 ‘GPT-3(1750억 개)’를 넘어서는 수준이다. 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습했다는 것이 네이버 측 설명이다. 네이버 관계자는 “학습 데이터 중 한국어 비중이 97%에 달해 세계에서 가장 큰 한국어 거대 언어모델을 구축했다”고 강조했다.

AI 기술 경쟁 치열

네이버와 카카오 간 AI 기술 경쟁은 갈수록 가열되는 모습이다. 네이버는 지난달 세계 최고 권위의 국제컴퓨터비전학회(ICCV)에서 13건의 논문을 발표했다. ‘일반화된 셔플 선형 회귀 분석(Generalized Shuffled Linear Regression)’이라는 제목의 논문으로 연구 성과 상위 3% 논문만 할 수 있는 구두 발표 기회를 얻었다. 앞서 네이버는 국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR), 전산언어학회(ACL), 미국인공지능학회(AAAI) 등 세계적인 AI 학회에서도 올해 총 51건의 정규 논문을 발표하는 성과를 올리기도 했다.

카카오도 해외 AI 학회에서 잇따라 성과를 내고 있다. 카카오브레인은 ICCV의 ‘2021 밸류 챌린지(VALUE Challenge)’ 부문에서 우승했다. 카카오브레인은 올 상반기 해외 학회에 9건의 논문을 발표하기도 했다.

국내 다른 IT 기업들도 초거대 AI 구축에 적극적이다. KT는 한국전자통신연구원(ETRI), KAIST, 한양대와 ‘AI 원팀’을 구성해 초거대 AI를 개발하고 있다. 내년에 상용화할 수 있는 AI 모델을 공개할 계획이다. SK텔레콤도 국립국어원과 함께 한국어에 최적화된 차세대 AI 언어 모델 ‘GLM’을 개발 중이다.

김주완 기자 kjwan@hankyung.com