국내 스타트업과 KT가 만든 수학 특화 인공지능(AI) 언어모델 ‘매스(Math)GPT’가 글로벌 수학 벤치마크 평가에서 마이크로소프트(MS)와 오픈AI의 대규모언어모델(LLM)을 넘어섰다. 수학 같은 특정 분야에선 국내 기업도 빅테크와 얼마든지 경쟁할 수 있다는 게 증명됐다는 평가가 나온다.
수학문제 풀이가 인공지능(AI)의 영역으로 들어왔다. 이미지 생성 AI ‘미드저니’에 수학문제를 푸는 AI 모습을 그려달라고 프롬프트를 입력했다.  미드저니
수학문제 풀이가 인공지능(AI)의 영역으로 들어왔다. 이미지 생성 AI ‘미드저니’에 수학문제를 푸는 AI 모습을 그려달라고 프롬프트를 입력했다. 미드저니

매스GPT 세계 신기록 경신

8일 업스테이지에 따르면 KT와 업스테이지, 매스프레소가 공동 개발한 수학 특화 언어모델 매스GPT는 ‘수학 언어모델의 수능’으로 불리는 MATH 벤치마크에서 0.488점을 기록하며 1위에 올랐다. 오픈AI의 GPT-4(0.425점)와 ToRA 7B(0.401점) 등 빅테크 기업의 모델을 넘어선 기록이다. 종전 1위였던 MS의 토라(ToRA) 13B는 0.481점을 받았다. MATH는 대학 수준의 고난도 수학경시 문제 1만2500개가 포함된 평가다.

매스GPT는 초등학교용 수학 문제 8500개로 구성된 GSM8K 벤치마크에서도 0.782점을 받아 신기록을 경신했다. MS의 ToRA 13B(0.758점)를 멀찍이 따돌렸다. 이 두 평가는 매스GPT처럼 매개변수가 130억 개 내외인 경량급 LLM을 대상으로 이뤄졌다.

업스테이지 관계자는 “KT의 인프라와 매스프레소의 데이터, 업스테이지의 모델링 기술을 합쳐 수학 특화 모델을 구축했다”며 “모델 크기가 작아 데이터 처리 속도가 빠르다”라고 말했다.

MATH와 GSM8K 벤치마크에서 동시 1위 달성은 이례적인 일로 평가된다. 두 벤치마크의 평가 기준이 제각각이기 때문이다. MATH는 대학 수준의 고급대수와 해석학, 미적분학에 대한 해결 능력을 평가한다. 창의적이고 복잡한 접근 방식을 가질수록 높은 평가를 받는다. 반면 GSM8K는 기본적인 산수와 대수, 기하학 등을 평가한다. 문제 해결 과정이 단순할수록, 풀이 정확도가 높을수록 우수한 점수를 준다.

에듀테크 산업 변혁 예고

업스테이지는 수년간 쌓아온 모델링 기술을 바탕으로 지난해 11월 매스GPT 개발에 뛰어들었다. 메타의 LLM인 라마-2를 기반 모델로 각종 하이퍼파라미터 튜닝을 거쳐 수학에 특화된 LLM 개발에 성공했다. 기반 모델을 수학 특화 모델로 발전시키는 데 필수적인 사고사슬(CoT)과 사고 프로그램(PoT) 기법을 활용했다. CoT는 논리적 사고를 통해 수학 문제를 푸는 과정을 돕는 기술이다. PoT는 구축한 논리를 바탕으로 프로그래밍을 통해 정확한 계산을 하는 과정을 의미한다.

130억 개 매개변수를 가진 매스GPT는 뛰어난 성능과 함께 빠른 속도와 저렴한 비용이 특징이다. 지난해 업스테이지가 개발한 LLM 솔라도 매개변수는 107억 개에 불과하지만 허깅페이스의 LLM 리더보드 1위에 올랐다. 매개변수는 LLM을 평가하는 지표 중 하나다. 오픈AI의 최신 LLM인 GPT4는 매개변수가 1조7000억 개에 달한다.

AI 학습 플랫폼 콴다를 운영하는 매스프레소는 문제의 맥락과 해설 등의 데이터를 업스테이지에 제공했다. 매스프레소는 콴다를 통해 매일 1000만 건이 넘는 수학 문제와 해설에 대한 데이터를 모으고 있다. KT는 국내 최대 규모의 GPU팜을 제공해 스타트업이 좀 더 빠른 환경에서 모델 개발이 가능하도록 인프라를 지원했다.

그간 수학은 논리적 추론과 추상적인 개념 탓에 LLM이 적용되기 어려운 분야로 꼽혀왔다. 콴다도 AI가 문제를 직접 해결하는 방식이 아니라 수학 문제와 해설을 모아 데이터베이스(DB)를 구축한 뒤 비슷한 문제를 추출하고 그에 맞는 해답과 풀이를 제공하는 식이었다. 콴다 관계자는 “구글 검색 수준에 머물렀던 에듀테크산업의 AI 수준이 매스GPT의 등장으로 한 단계 성장하게 될 것”이라고 말했다.

장강호 기자 callme@hankyung.com