문장 입력하면 2초 만에 이미지 뚝딱

문장 입력하면 2초 만에 이미지 '뚝딱'

입력2024.01.26 13:26 수정2024.01.26 13:26

전자통신연, 이미지 생성 모델 3종·대화형 시각 언어모델 2종 공개

한국전자통신연구원(ETRI)이 생성형 인공지능(AI)과 시각 지능 기술을 결합해 문장(텍스트)을 입력하면 2초 만에 이미지를 만드는 기술을 공개했다.

ETRI는 문장을 입력해 이미지를 만드는데 기존 오픈AI에서 공개한 달리(DALL-E)3 보다 5배 빠른 '코알라'(KOALA) 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각 언어모델 '코라바'(Ko-LLaVA) 2종 등 5종 모델을 일반에 공개했다고 26일 밝혔다.

코알라모델은 공개 소프트웨어 모델(경량 스테이블 디퓨전 모델)의 2.56B(25억6천만개) 파라미터(뇌의 신경세포 접합부인 시냅스에 해당하는 역할) 수를 지식 증류(Knowledge Distillation) 기법으로 700M(7억개)로 획기적으로 줄였다.

파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다.

ETRI 연구진은 모델 크기를 3분의 1로 축소했고, 고해상도 이미지를 기존의 2배, 달리(DALL-E) 3보다 5배가량 빠르게 개선했다.

ETRI는 모델 생성 속도를 2초 내외로 만들어 8기가바이트(GB) 저용량 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있게 했다고 설명했다.

연구진이 '달 아래 화성에서 책을 읽고 있는 우주비행사 사진"이라는 문장을 입력하자, 코알라 스몰(Small) 크기인 700M(7억개)는 1.6초 만에 이미지를 뚝딱 만들어 냈다.

연구진은 챗GPT 같은 대화형 인공지능에 시각 지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답 할 수 있는 대화형 시각 언어모델인 '코라바'(Ko-LLaVA)도 함께 공개했다.

아울러 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다.

연구진은 현재 생성형 인공지능 시장이 문장 위주의 모델에서 점차 사진이나 영상을 문장으로, 문장에서 이미지나 비디오로 응답해주는 유형 등 멀티모달 모델로 변화가 이뤄지고 모델 크기 경쟁에서 작고 효율적인 모델이 출현할 것으로 예상한다.

ETRI는 이 기술을 이미지 생성 서비스, 창작 교육 서비스, 콘텐츠 제작 및 사업자 등에 이전할 계획이다.

ETRI 이용주 시각지능연구실장은 "향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획"이라며 "거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정"이라고 말했다.

/연합뉴스

관련 뉴스

1

SW융합협의회 신임 회장에 변경수 넥스트인프라 대표

한국소프트웨어산업협회(KOSA)는 협회 산하 소프트웨어(SW)융합협의회 신임 회장에 변경수 넥스트인프라 대표를 선임했다고 26일 밝혔다. SW융합협의회는 소프트웨어 융합 서비스 수요 시장 확대와 비즈니스 활성화를 위...
2

갤럭시 S24 역대급 흥행 예고…울트라 선호

삼성전자의 인공지능(AI) 스마트폰 갤럭시 S24 시리즈가 사전예약으로만 120만 대 넘게 판매됐다.삼성전자는 이달 19∼25일 진행한 갤럭시 S24 시리즈 국내 사전 예약에서 전년 대비 약 11％ 이상 증가한 약 ...
3

네이버 '프리즘 라이브 스튜디오', B2B 시장 진출

네이버는 25일 '프리즘 라이브 스튜디오' 모바일 앱의 B2B(기업간거래) 상품을 네이버 클라우드 플랫폼에서 출시했다고 26일 밝혔다. 2019년 3월 출시된 '프리즘 라이브 스튜디오'는 PC와 모바일 환경에서 동영...