신발 반품하고 싶어 AI에 부탁했더니…놀라운 반응

“신발 사이즈가 작아, 반품하고 싶어.”(사용자)

“쇼핑몰에 반품 신청했고, 픽업 일정을 캘린더에 표시했어요.”(구글 제미나이)

구글이 14일(현지시간) 미국 캘리포니아 마운틴뷰 본사에서 개최한 연례 개발자 콘퍼런스 ‘I/O’에서 인공지능(AI) 모델 제미나이 1.5의 새로운 버전을 내놓으며 시연한 장면이다. 사용자가 카메라로 신발을 보여주며 반품 의사를 밝히자 제미나이가 신발을 구매한 이력을 찾아 해당 쇼핑몰에 반품을 요청했다. 그리고 신발 픽업 일정을 확인해 구글 캘린더에 시간 장소까지 표시해줬다. 순다르 피차이 구글 & 알파벳 최고경영자(CEO)는 “현재 전 세계 20억명이 구글 검색, 구글 포토, 구글 워크스페이스, 안드로이드 등 다양한 구글 제품을 통해 제미나이를 경험하고 있다”며 “한 단계 더 진화한 모델을 통해 보다 빠르고 정확하고 풍부한 피드백을 받을 수 있다”고 설명했다.

“AI로 모든 것을 다 한다”

이날 2시간 동안 진행된 키노트 스피치에서 구글 측은 총 122번 ‘AI’를 언급했다. 피차이 CEO는 물론 이제까지 I/O 행사에 모습을 드러내지 않았던 데미스 허사비스 구글 딥마인드 CEO까지 무대로 나와 구글의 AI 기술력과 제품 홍보에 나섰다. 그 정도로 AI에 총력을 기울여야 리더십 경쟁에서 뒤처지지 않는다는 절박함과 위기감을 엿볼 수 있었다.

올해 I/O에서 확인할 수 있는 키워드는 △진화 △통합 △심화다. 멀티모달 기능을 강화해 텍스트는 물론 이미지, 음성, 영상 정보까지 분석해 추론할 수 있도록 했다. 이를 통해 사용자는 비행기부터 호텔, 식당, 관광 일정까지 전체 여행 계획 수립, 일주일 치 식단 짜기 등을 한 번에 할 수 있도록 한 것이다.

피차이 CEO는 “제미나이의 최상위 모델인 ‘제미나이 1.5 프로’는 데이터 및 알고리즘 개선을 통해 코드 생성, 논리적 추론 및 계획, 멀티턴 대화, 오디오 및 이미지 인식 성능이 향상됐다”며 “‘제미나이 1.5 플래시’는 멀티모달 추론 기능을 갖췄으며, 빠르고 효율적인 대규모 서비스에 최적화된 경량 모델”이라고 소개했다. 이들 모델은 이날부터 AI 스튜디오 및 버텍스 AI에서 프리뷰 버전으로 사용할 수 있다.

“AI 오버뷰로 여행 계획, 식단까지 모두 작성”

구글은 새로운 AI 모델을 개발하면서 사용자 중심의 검색 경험 최적화다. 실시간 정보, 지식 그래프, 구글만의 검색 순위 및 품질 시스템에 제미나이의 멀티모달 이해 능력과 긴 맥락 처리 능력을 더했다. 이를 통해 사용자는 더욱 정확하고 풍부한 검색 결과를 얻을 수 있다고 구글 측은 설명했다. 예를 들어 사용자가 “방금 시카고로 이사왔어. 무엇을 해야하지?”라고 물으면 구글 제미나이가 알아서 집 주변의 식당, 병원, 공공기관, 공원 정보를 추천해줬다.
“마이애미 5박 6일 여행 일정을 짜달라”고 하면 항공, 호텔은 물론 구체적인 식당과 메뉴까지 제시했다.

이는 구글이 ‘다단계 추론 기술’을 통해 복잡한 질문에도 똑 부러진 답변을 할 수 있도록 기능을 개선했기 때문이다. 구글 측은 “가격, 위치 등 다양한 조건을 고려한 맞춤형 필라테스 스튜디오 추천부터 개인별 다이어트 식단 계획, 여행 계획 브레인스토밍까지 구글 검색만으로 모두 할 수 있도록 편의성과 정확성을 높였다”고 소개했다.

“내가 보는 걸 AI도 본다”

구글은 실생활에 실질적인 도움을 줄 수 있도록 AI 어시스턴트 기능도 강화했다. ‘프로젝트 아스트라’가 대표적이다. 이날 구글이 보여준 시연 영상에선 사용자가 AI와 마치 사람처럼 대화했다. 사용자가 휴대전화 카메라로 스피커를 촬영하자 AI는 어떤 스피커 모델인지 파악했고, 부분별 기능에 대해서도 질문에 답했다. 사무실 화이트보드에 있는 코드를 비추고 ‘어떤 코드인지 설명해보라’고 하자 코드를 분석해 말해줬다. 창문 밖의 건물을 보여주자 런던의 도로 주소를 알아냈다. 영상 말미에 사용자가 “내가 안경을 어디에 뒀더라?”라고 말하자 AI가 이미 보여준 영상을 분석해 “책상 끝에 있어”라고 찾아줄 때 참가자들이 탄성을 지르기도 했다.
구글은 AI 어시스턴스 기능 중 하나인 ‘제미나이 라이브’를 곧 출시할 예정이다. 구글 측은 “제미나이와 음성으로 자연스럽게 대화할 수 있는 제미나이 라이브를 몇 개월 안에 출시할 예정”이라며 “제미나이 라이브는 실제 일상에서 말하는 것과 같은 새로운 대화 환경을 제공한다”고 설명했다.

동영상 생성 AI 모델 ‘비오(Veo)’ 공개

구글은 동영상 생성 AI 모델인 ‘비오’도 공개했다. 글로 입력하면 영상을 만들어주는 모델로, 오픈AI의 ‘소라’의 대항마 격이다.

비오는 다양한 1분 이상 길이의 영상을 고화질(1080p) 해상도로 생성할 수 있다. 구글 측은 “자연어와 시각적 의미에 대한 이해도가 높으며, 긴 프롬프트의 내용을 정확하게 렌더링할 수 있다”며 “다양한 영화 제작자와 크리에이터들을 통해 모델을 실험하며 기술을 설계, 구축 및 배포하는 방식을 개선하고 있다”고 소개했다. 이와 함께 텍스트–이미지 변환 모델인 이마젠3의 성능도 향상해 내놨다.

“나를 기억하는 AI”

구글은 제미나이를 통해 개인의 실생활 깊이 AI를 관여시키는 데 주력했다. 예를 들어 사용자가 “나의 딸이 수영을 언제부터 배웠는지 알고 싶어”라고 말하면 AI가 구글 포토에 있는 딸의 몇 년 치 사진을 분석해 처음 수영할 때 사진부터 최근 사진까지 선별해 보여줬다.

구글은 이처럼 사람들의 삶 속에 AI가 깊숙하게 자리 잡을수록 안전성도 중요하다고 강조했다. AI 모델의 결과물이 점점 더 정교해질수록 콘텐츠의 악용 가능성도 있기 때문이다. 이에 지난해 AI로 생성한 이미지와 오디오에 눈에 띄지 않는 워터마크를 삽입하는 ‘신스ID(SynthID)’ 기술을 도입한 구글은 올해부터 텍스트와 동영상에도 신스ID를 확대 적용할 계획이다. 피차이 CEO는 “이용자들이 디지털 콘텐츠의 출처를 이해할 수 있게 돕기 위한 구글의 광범위한 투자의 일환”이라며 “모든 이들을 위한 AI를 개발한다는 구글의 비전을 달성하기 위해 책임있는 기술 개발에 역량을 집중할 것”이라고 말했다.

마운틴뷰=최진석 특파원 iskra@hankyung.com