KT·MS 협업 AI 모델 '소타 K' 공개…한국어 존댓말·사투리까지 이해
입력
수정
지면B7
韓 사회·문화 맥락 반영·학습
자체 검증 후 기업 서비스 계획
기존 거대언어모델(LLM)은 영어권 중심 데이터로 학습돼 한국어와 한국의 독특한 사회·문화적 맥락 반영에 한계가 있었다. KT는 이 점에서 사업 방향을 찾았다. KT가 한국 특화 데이터를 대규모로 확보하면 MS가 협력해 GPT-4o를 한국 사회에 최적화된 모델로 발전시키는 방식으로 개발이 이뤄졌다.
KT에 따르면 SOTA K는 데이터 주권 보호, 한국 문화 이해, 모델 선택권 보장, 안전하고 책임감 있는 AI 등 국내서 필요로 하는 4대 AI 요건을 구현한 모델이다. 한국어 경어법·방언은 물론 법률·금융·역사, 국내 특정 산업군 내에서 사용하는 전문 용어까지 국내 비즈니스 환경에서 실용성을 높인 게 특징이다.
KT는 모델 출시 전 자체 데이터셋을 구축해 정량 평가와 정성 평가를 진행했다. 그 결과 SOTA K는 한국어 이해, 생성, 추론, 사회·문화, 한국 전문 지식 등 주요 지표에서 GPT-4o 대비 우위를 보였다고 밝혔다. 한국사, 한국어, 한국 법령 등 한국적 지식을 요구하는 대한민국 공무원 시험과 귀화 시험에서 GPT-4o 모델을 능가하는 성과를 거뒀다.
KT에 따르면 SOTA K는 한국적 AI 평가 중 AI 응답 및 법률과 권리 준수, 사회 및 경제 영향도의 안전성, AI 모델의 강건성 부문에서 높은 평가를 받았다. 악의적 사용자에 의한 AI 모델 탈옥 공격에 대해서도 방어 능력을 보였다고 KT는 설명했다.
주요 고객사에서 검증도 완료했다. 메리츠화재에서는 보험 업계에 특화된 약관의 자동 요약 리포트, 상담원 스크립트 등 생성에서 결과를 냈다. 연세의료원에서는 영어와 한국어가 혼합된 의료 데이터를 환자가 쉽게 이해할 수 있도록 한국적인 표현으로 안내했다.
KT는 자사 기업소비자간거래(B2C) 사업에 SOTA K를 우선적으로 적용한다. 이후 자체 및 협업 모델 라인업을 검증한 뒤 파트너사에 서비스를 확대 제공할 계획이다. 윤경아 KT 에이전트 AI 랩장은 “SOTA K는 글로벌 수준의 기술력과 한국적 AI 특화를 동시에 실현한 혁신적 모델”이라며 “MS와 협업을 통해 축적한 노하우는 향후 KT의 다양한 AI 모델 개발에 확산 적용될 것”이라고 밝혔다.
최지희 기자 mymasaki@hankyung.com