'챗GPT 대항마' 구글 제미나이 공개

이미지·영상·음성 인식하고 추론
구글이 차세대 대규모언어모델(LLM) ‘제미나이’를 전격 공개했다. 이미지, 영상, 음성 등을 인식하고 추론하는 멀티모달 기능을 전면에 내세웠다.

구글은 5일(현지시간) 온라인 미디어 브리핑을 통해 제미나이 출시를 알렸다. 이 회사는 제미나이를 처음부터 멀티모달로 설계했다고 강조했다. 단순히 이미지를 파악하는 것을 넘어서 물건의 속성과 특징까지 파악해 이를 바탕으로 추론까지 해낸다는 설명이다. 오렌지와 쿠키를 보여주면 “오렌지가 쿠키보다 건강에 더 좋다”는 판단까지 내놓는 식이다. 순다르 피차이 구글 최고경영자(CEO)는 “문서와 코드, 오디오, 이미지, 동영상 등 다양한 유형의 정보를 일반화해 원활하게 이해하고 작동하며 결합할 수 있다”며 “지금까지 AI 모델 중 가장 유능하다”고 말했다.구글은 오픈AI의 GPT보다 우수하다는 점을 수치로 비교하며 강조했다. 구글의 AI 개발 조직인 구글 딥마인드의 데미스 허사비스 CEO는 “수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가하는 대규모 멀티태스크 언어 이해(MMLU) 테스트에서 90.04%의 점수를 기록했다”며 “현존하는 LLM 중 처음으로 90%를 넘었다”고 말했다.

구글은 제미나이를 챗봇 ‘바드’와 구글 클라우드에 적용할 예정이다. 멀티모달 AI의 성능과 안전성 검증이 끝나면 교육, 의료, 유통, 제조 등 전 산업에 걸쳐 다양한 파급효과가 나타날 것으로 전망된다.

실리콘밸리=최진석 특파원 iskra@hankyung.com

핫이슈