매머드 걸어온다 적으면 영상 뚝딱…1시간 영화, 한 페이지에 요약

'매머드 걸어온다' 적으면 영상 뚝딱…1시간 영화, 한 페이지에 요약

최진석 기자

입력2024.02.16 18:46 수정2024.02.17 02:07 지면A2

오픈AI '소라'·구글 '제미나이 1.5'
영상기반 '멀티모달AI' 동시 출시

‘여러 마리의 거대한 털북숭이 매머드가 눈 덮인 초원을 밟고 다가온다.’

입력창에 이런 내용을 입력하자 매머드가 성큼성큼 걸어오는 영상(사진)이 제작됐다. ‘두 척의 해적선이 커피잔 안에서 항해하면서 서로 싸우는 모습을 사실적으로 클로즈업한 비디오’라고 써넣으니 거친 커피 물결 속에서 대결을 벌이는 검은 해적선 영상이 등장했다.

챗GPT 개발사인 오픈AI가 15일(현지시간) 새로운 인공지능(AI) 모델 ‘소라’를 내놓았다. 소라는 글로 명령하면 영상으로 변환해주는 멀티모달 AI다. 오픈AI는 소라의 영상물을 소개하며 “실제 서비스에 앞서 피드백을 얻기 위해 다수의 시각 예술가, 디자이너, 영화제작자에게 접근권을 부여했다”고 설명했다.

AI 기술이 고도화하면서 빅테크 업체 간 멀티모달 AI 경쟁이 본격화하고 있다. 멀티모달은 문서 외에 이미지와 영상, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 기술을 말한다. 지금까지는 이미지와 음성 정보가 중심이었다. 하지만 최근 등장한 모델들은 정보량이 큰 영상도 척척 처리한다.

오픈AI에 따르면 소라는 최대 1분 길이의 영상을 제작할 수 있다. 기존 비디오 생성 AI가 4초 정도의 영상을 만든 것에 비해 생성 능력이 대폭 증가했다. 오픈AI 측은 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성할 수 있다”고 설명했다. 다만 오픈AI는 소라가 공간적 세부 사항을 혼동할 수 있고, 특정 카메라 궤적을 따라가는 데 어려움을 겪을 수 있다고 덧붙였다.

같은 날 구글은 차세대 AI 모델 ‘제미나이 1.0 프로’의 업데이트 버전인 ‘제미나이 1.5 프로’를 공개하며 맞불을 놨다. 제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉜다. 이날 공개한 제미나이 1.5 프로는 텍스트·이미지·음성·영상을 생성하는 중급 멀티모달 모델이다. 기존 모델을 개선하면서 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 성능을 높인 것이 특징이다.

구글 측은 “제미나이 1.5 프로는 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다”고 설명했다. 실제로 데모 영상에서 제미나이 1.5 프로는 미국 배우 버스터 키튼의 44분 분량 영화를 분석한 뒤 줄거리를 요약했다.

실리콘밸리=최진석 특파원 iskra@hankyung.com

관련 뉴스

1

뉴욕증시, 강한 생산자 물가에 하락 출발

뉴욕증시는 1월 생산자물가지수(PPI)가 예상보다 강했다는 소식에 하락세로 출발했다. 16일(미 동부시간) 뉴욕증권거래소(NYSE)에서 오전 10시 19분 현재 다우존스30산업평균지수는 전장보다 81.48포인트(0....
2

가봉 국영석유회사, 칼라일 석유사업 인수하기로 합의

가봉의 국영 석유회사는 프랑스의 모렐 & 프롬에 13억 달러에 사업을 매각할 수 있는 권리를 사용한 후 칼라일을 인수하기로 합의했다고 16일(현지시간) 발표했다.모렐 & 프롬은 지난 8월 아살라 에너지를 7억3천만 ...
3

레드버드 IMI, 영국 ALL3미디어 14억5천만 달러 계약 체결

투자 그룹 레드버드 IMI는 영국 영화 및 TV 제작 회사인 ALL3미디어를 14억5천만 달러에 인수하기로 합의했다고 16일(현지시간) 밝혔다."플리백"과 "미드소머 살인"과 같은 히트 쇼의 배후에 있는 회사는 워너...