이미지만 보여줘도 답변 척척…카카오, 새 오픈소스 AI 공개

"이미지만 보여줘도 답변 척척"…카카오, 새 오픈소스 AI 공개

이주현 기자

입력2024.01.19 17:23 수정2024.01.20 01:54 지면A10

멀티모달 LLM 적용한 '허니비'
네이버·LG도 시장 공략 나서

카카오 자회사인 카카오브레인이 이미지를 텍스트로 해석할 수 있는 인공지능(AI)을 공개했다. 오픈소스로 이 기술을 시장에 풀어 생성형 AI 생태계를 빠르게 구축할 예정이다.

카카오브레인은 자체 개발한 멀티모달 대규모언어모델(LLM)인 ‘허니비’를 AI 오픈소스 플랫폼인 ‘깃허브’에 선보였다고 19일 발표했다. 멀티모달은 텍스트뿐 아니라 사진, 그림, 영상, 음성 등 다양한 형태의 콘텐츠를 입·출력할 수 있는 AI 모델을 뜻한다.

이용자가 이미지를 올린 뒤 텍스트로 질문하면 허니비는 텍스트로 답을 내놓는다. 농구 경기 중인 두 명의 선수 이미지를 올린 뒤 왼쪽 선수가 몇 번 우승했는지를 물어보면 우승 횟수를 알려주는 식이다. 다만 텍스트는 영문만 지원한다.

카카오는 AI 기술을 오픈소스 플랫폼으로 외부 공개하는 방식을 택했다. 허니비를 활용한 자체 서비스 개발에만 집중하기보다 다양한 업체가 허니비를 활용해 각종 서비스를 내놓을 수 있도록 하겠다는 전략이다. 카카오 관계자는 “허니비는 교육이나 학습 보조 용도로 우선 활용될 수 있을 것”이라며 “카카오브레인도 이를 활용해 각종 서비스를 확장하는 안을 고려하고 있다”고 말했다.

카카오는 자체 LLM인 ‘코GPT 2.0’을 지난해 말 공개하기로 했지만 출시가 미뤄졌다. 이 업체는 범용으로 활용할 수 있는 중형 LLM 대신 산업 영역별로 특화한 경량 LLM 위주로 생성 AI 서비스를 내놓는 안을 고려하고 있다. 충분한 수익성을 확보하기 위해선 AI 모델의 몸집을 줄여 서비스 호출 비용을 최소화해야 한다는 게 카카오의 판단이다.

다른 국내 기업들도 이미지를 활용한 멀티모달 기술로 생성 AI 시장에 도전장을 낸 상태다. 네이버는 연내 자체 AI 모델인 ‘하이퍼클로바X’로 이미지, 음성 등의 입력을 지원하는 게 목표다. LG AI연구원도 지난달 자체 AI 모델인 ‘엑사원 2.0’을 통해 이미지를 텍스트로 설명해주는 기술을 공개했다. 아마존웹서비스(AWS) 플랫폼으로 이 기술을 풀어 해외 시장을 공략하겠다는 구상이다.

생성 AI 시장을 선도했던 오픈AI는 지난해 9월 챗GPT에 음성, 이미지 인식 기능을 추가했다. 구글도 지난달 멀티모달 AI 모델인 제미나이를 공개했다. 삼성전자의 갤럭시S24 시리즈에 도입되는 이미지 분석 기술인 ‘서클 투 서치’도 제미나이를 활용한다.

이주현 기자 deep@hankyung.com

관련 뉴스

1

AI로 UAM 수십만대 통제…양자 네트워크가 해결한다

양자컴퓨터는 생성형 인공지능(AI)의 날개 역할을 할 기술이다. 2054년 미국 워싱턴DC를 배경으로 한 영화 ‘마이너리티 리포트’엔 AI가 자율주행 차량들을 동시 통제하는 모습이 나온다. 영화...
2

소설가 정지돈 "AI가 일상화 되면…인간에겐 예술만 남지 않을까"

아시아계 미국인인 ‘나’는 맨해튼에 본사를 둔 데이터 회사 ‘블룸 앤 블룸’에 취업한다. 블룸 앤 블룸 건물의 특징은 연봉과 직급에 따라 접근할 수 있는 층이 달라진다는 것...
3

[책마을] "인간이 'AI의 손아귀'에 놓일 수 있다"

인공지능(AI)을 이야기하는 책이 하루가 멀다 하고 쏟아지는 와중에, 그중에서도 <더 커밍 웨이브>가 주목받는 이유는 무스타파 술레이만이 쓴 책이라서다. 술레이만은 알파고를 개발한 딥마인드의 공동 설립자다. 구글 A...