정부의 독자 인공지능(AI) 파운데이션 모델 프로젝트의 정예팀 중 한 곳인 업스테이지가 중국 AI 모델을 도용했다는 논란에 사실이 아니라고 반박했다. ‘소버린 AI’(자주적 AI)의 정의를 두고 업계에서 갑론을박이 일면서 정부가 기술 검증 기준을 명확히 해야 한다는 목소리가 나온다.
김성훈 업스테이지 대표는 2일 서울 강남역 인근에서 기술 공개검증 행사를 열고 과학기술정보통신부 독자AI 프로젝트에 선보인 ‘솔라 오픈 100B’의 개발 과정을 공개했다. 김 대표는 “솔라 오픈 100B가 중국 모델을 복사해 미세 조정한 것이란 주장은 사실이 아니다”며 “최신 모델들을 참고해 업스테이지의 독자적인 세팅으로 만든 것”이라고 설명했다.
이날 행사는 전날 고석현 사이오닉에이아이 대표가 솔라 오픈 100B의 기술 분석 자료를 공개하고 중국 지푸AI의 ‘GLM-4.5-에어’ 모델에 기반을 둔 파생 모델이라고 의혹을 제기한 후 열렸다. 고 대표는 “두 모델의 토큰 임베딩이 사실상 동일한 분포를 가지고 있다는 점을 확인했다”며 문제를 제기했다. 정부가 독자AI 프로젝트의 참여 조건으로 제시한 프롬 스크래치(처음부터 만드는 것) 방식으로 학습된 모델이라면 나타나기 어려운 유사도라는 것이다.
이에 업스테이지 측은 단순 레이어 유사성만으로 모델 파생 여부를 단정하는 것은 무리가 있다고 반박했다. 김 대표는 “학습된 다른 모델의 가중치를 그대로 가져왔다면 프롬 스크래치가 아니지만, 모델 아이디어나 인퍼런스 코드 스타일을 참조하는 건 허용된다”며 “오픈소스 생태계에서 모델이 상호 호환되려면 구조가 비슷해야 한다”고 설명했다.
문제를 제기한 고 대표는 이후 올린 또 다른 게시물에서 “상이한 모델도 레이어 값에선 높은 유사도를 보일 수 있다고 본다”며 한발 물러섰다. 그러나 “중국 모델 코드와 구조를 잘 학습하는 게 국가적인 AI 사업의 방향으로 타당한지는 의문”이라고 재차 문제를 제기했다.