네이버의 생성형 인공지능(AI)이 한국형 성능 평가에서 오픈AI, 구글 등 해외 기업들보다 뛰어난 성과를 냈다.

네이버 자회사인 네이버클라우드는 “자체 AI 모델인 하이퍼클로바X가 AI 성능 평가지표 ‘KMMLU’에서 오픈AI의 GPT-3.5 터보, 구글의 제미나이 프로보다 높은 종합 점수를 받았다”고 27일 발표했다. KMMLU는 국내 오픈소스 언어모델 연구팀인 해례가 개발한 AI 성능 검사다. 인문·사회·과학 등 45개 분야, 3만5030개 문항을 물어 나온 답변으로 AI를 평가한다. 세계 공통으로 적용되는 지식 문항 80%, 한국 지리·법 등 국내 특화 문항 20%로 돼 있다.

국내 특화 문항에 한정했을 땐 하이퍼클로바X의 점수가 오픈AI의 최신 AI 모델인 GPT-4보다도 높게 나왔다. KMMLU는 한국어로 문제를 만든다. 오픈AI, 구글 등은 자체 AI 모델을 확인하기 위해 영어 기반 지표인 ‘MMLU’를 쓴다. MMLU는 영미권 문화에 기초한 문항이 많아 생성 AI의 한국 내 활용 능력을 입증하기엔 부족하다는 지적이 있었다. 네이버클라우드 관계자는 “한국어에 강한 하이퍼클로바X 특성을 살려 비영어권 AI 모델도 공급할 방침”이라고 말했다.

이주현 기자 deep@hankyung.com