F1 스코어 95.15점으로 인간의 독해력 수준도 뛰어넘어
“올 1분기 내 한국어 최고 성능 입증”
인공지능(AI) 기술 기업 스켈터랩스가 자체 개발한 한국어 AI 언어모델이 한국어 기계 독해(MRC) 데이터셋 ‘KorQuAD 1.0’ 기반 성능 평가 리더보드에서 F1 스코어 95.15점을 받아 1위를 기록했다고 14일 밝혔다.

KorQuAD 1.0은 LG CNS가 2018년 12월 공개한 한국어 질의응답 데이터셋이다. 기계 독해 AI 학습 및 검증을 위해 위키백과로부터 추출한 표준 데이터 7만개로 구성돼 있다. 성능 평가는 데이터셋에서 추출한 내용을 질문으로 제시하고 이에 대해 개발 모델이 답을 찾아내는 방식으로 이뤄진다.

개발된 AI 기계 독해 모델을 제출하면 모델이 찾은 답과 실제 정답을 글자 단위로 비교해 정밀도와 재현율을 종합적으로 고려한 수치인 F1 스코어와 모델이 정답을 정확히 맞춘 데이터의 비율을 뜻하는 EM 스코어로 성능 평가 결과를 받을 수 있다. KorQuAD 독해 문제를 인간이 직접 풀었을 때는 F1 스코어 91.20점, EM 스코어 80.17점을 기록했으며 이를 기준으로 인간 대비 AI의 독해력을 평가하고 있다.

스켈터랩스는 F1 스코어 95.15점으로 인간의 독해력 수준은 물론 기존 등재된 AI 모델들을 뛰어넘는 점수를 받아 1위를 차지했다. 이번에 평가받은 스켈터랩스 AI 모델은 적은 양의 학습 데이터로도 한국어에서 관찰되는 다양한 고유 특성을 학습할 수 있도록 설계됐다. 새롭게 개발되는 언어모델이나 활용 분야에 대해 유연하게 적용할 수 있도록 자체 프레임워크를 개발해 모델의 성능을 향상시키는 것에도 중점을 뒀다.
스켈터랩스의 AI 챗봇 설계 솔루션 ‘AIQ.TALK Chatbot’. 스켈터랩스 제공

스켈터랩스의 AI 챗봇 설계 솔루션 ‘AIQ.TALK Chatbot’. 스켈터랩스 제공

스켈터랩스는 해당 모델을 바탕으로 한 질의응답 기술을 올해 상반기 내 자사 AI 챗봇 설계 솔루션 ‘AIQ. TALK Chatbot’에 적용하고 모듈 단위로도 제공할 예정이다. 금융, 보험, 법률, 특허, 의료 등의 분야에서 대용량의 광범위한 문서를 AI가 빠르고 정확하게 이해하여 사용자의 의사결정에 유용한 정보를 추출하는 데에 활용될 수 있다는 설명이다. 가령 방대한 펀드 약관에서 사전 정의된 체크리스트를 바탕으로 AI가 내용을 분석하여 적정성 여부를 판단함으로써 심사 시간을 대폭 줄일 수 있다.

조성진 스켈터랩스 CTO는 “스켈터랩스는 해당 언어모델의 성능을 지속적으로 향상시켜 한국어 자연어이해(NLU) 분야에서 최고의 기술력을 갖춘 기업으로 공고히 자리매김해 나가는 한편, 음성인식 기술의 고도화에도 집중해 올해 1분기 내에 이 분야에서도 최고 성능임을 입증 받을 것”이라고 했다.

김남영 기자 nykim@hankyung.com

ⓒ 한경닷컴, 무단전재 및 재배포 금지