‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지. 카카오브레인 제공
‘사막에 있는 에펠탑(the Eiffel Tower in the desert)’이라는 텍스트 조건에 의해 생성된 샘플 이미지. 카카오브레인 제공
카카오의 인공지능(AI) 전문 자회사 카카오브레인은 텍스트를 입력하면 이미지로 변환해주는 이미지 생성 모델 'RQ-트랜스포머'를 세계 최대 오픈소스 커뮤니티 깃허브에 공개했다고 19일 발표했다.

39억 개의 매개변수(파라미터)로 구성된 ‘RQ-트랜스포머’는 3000만 쌍의 텍스트-이미지를 학습한 텍스트 투 이미지 AI 모델이다. 계산 비용을 줄이고 이미지 생성 속도와 품질을 향상했다는 설명이다. 카카오브레인 관계자는 "지금까지 공개된 이미지 생성 모델 중 국내 최대 크기 모델"이라며 "공공 목적을 위해 공개했다는 점에서 AI 커뮤니티에 대한 기여가 클 것"이라고 말했다.

RQ-트랜스포머는 카카오브레인의 초거대 멀티모달 AI '민달리'의 업그레이드 버전이다. 기존 모델 대비 크기는 3배, 이미지 생성 속도와 학습 데이터 세트 크기는 2배 늘었다. 민달리의 경우 미국 오픈AI가 공개한 'DALL-E'를 재현하는 것에 가까웠다면 RQ-트랜스포머는 카카오브레인 독자 기술로 개발했다는 설명이다.

RQ-트랜스포머는 대규모 데이터 세트를 바탕으로 학습돼 처음 보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다. '사막에 있는 에펠탑'이라는 텍스트를 입력하면 알맞은 이미지를 보여주는 식이다.

카카오브레인 관계자는 "단순히 주어진 텍스트 조건에 의해 이미지를 생성하는 것에서 나아가, 인간이 머릿속에서 자유롭게 떠올리는 아이디어를 컴퓨터 프로그램을 통해 디지털 이미지로 실현할 수 있도록 기술 역량을 쌓아갈 예정"이라고 강조했다.

카카오브레인은 오는 6월 열리는 세계적 학술대회 CVPR 2022에서 RQ-트랜스포머에 대한 논문을 발표할 예정이다.

김일두 카카오브레인 대표는 “인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재한 의도를 파악하고 이해하는 기술을 보여준다”며 “이번에 공개한 획기적인 AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것“이라고 말했다.

이승우 기자 leeswoo@hankyung.com