치열해지는 AI 스피커 경쟁
"청각만 있던 AI에 시각 더한 효과"
음성·터치 결합 '믹싱' 형태로 진화
사진=EPA

사진=EPA

정보기술(IT) 업계의 인공지능(AI) 스피커 경쟁 양상이 진화하고 있다. 스피커는 음성 기반이란 상식을 살짝 비틀어 ‘화면 달린 AI 스피커’를 잇따라 출시, 시장을 확대하고 있어서다.

27일 업계에 따르면 ‘구글 홈허브’가 최근 국립전파연구원 전파인증을 받아 올 상반기 국내 정식 출시가 예상된다. 미국에서 지난해 10월 출시된 이 제품은 기존 AI 스피커에 작은 태블릿PC 크기인 7인치 화면을 장착했다. 화면이 추가돼 뉴스, 일정, 길 찾기 등 각종 기능 활용이 한층 쉬워진 게 특징이다.

구글뿐 아니라 아마존·페이스북 등이 화면 달린 AI 스피커 제품인 ‘스마트 디스플레이’를 판매 중이다. 국내에선 SK텔레콤·네이버 등도 스마트 디스플레이를 준비하고 있으나 아직 상용화 제품을 선보일 단계는 아니다.

디스플레이가 결합되면 기존 AI 스피커처럼 음성만으로 서비스 로직(logic)을 짜고 해결해야 하는 부담을 덜 수 있다. 업계 관계자는 “AI 스피커는 음성인식 한 가지 경로에만 의존해야 했다. 사실 동영상 시대에 음성 콘텐츠만으로 고객을 붙들어두는 것 자체가 쉽지 않은 도전”이라고 털어놓았다.

화면이 추가되면 얘기가 달라진다. 화면으로 결과물을 노출해 눈으로 확인하기 쉽다. 가령 AI 스피커에게 제품을 구매하겠다고 말하면 디스플레이에 몇 가지 추천 제품군이 뜨고, 이를 확인 후 선택하는 식으로 활용도가 올라간다.

최승진 포스텍 컴퓨터공학과 교수는 “청각(스피커)만 있던 AI에 시각(디스플레이)이 더해진 셈”이라며 “앞으로는 디스플레이를 통해 안면인식 등 사람의 감정 상태까지 보다 섬세하게 파악할 수 있을 것이다. 음성에 시각까지 결합해 AI의 종합 판단력이 향상되는 방향으로 발전해나가지 않겠느냐”고 내다봤다.

구글·아마존·페이스북 등이 선보인 스마트 디스플레이의 지향점은 조금씩 차이가 있어 보인다. 아마존의 ‘에코 쇼’는 보이스 커머스 연동 의도가 뚜렷하다. 페이스북은 상대적으로 사무용도에 가깝고, 구글은 보다 포괄적으로 접근하는 경향성이 엿보인다.

스피커와 디스플레이의 이종(異種)간 융합은 AI 스피커의 단점을 보완하려는 시도다. AI 스피커는 올해 국내에 800만대 이상 보급될 전망이지만 사용자 만족도가 낮다. 정해진 대로 지시하지 않으면 “이해하지 못했다”거나 “수행하기 어렵다”는 답변만 되풀이해 ‘깡통 스피커’란 비판까지 나오고 있다.

전문가들은 “결국 업체들이 AI 스피커의 사용자 인터페이스와 경험(UI·UX)을 음성과 터치가 결합된 믹싱(mixing) 위주로 바꿔가는 추세”라고 설명했다.

내비게이션 티맵(Tmap)에 적용된 음성인식 AI ‘누구(NUGU)’로 스타벅스 사이렌오더(주문)하는 일상에서의 사례를 떠올리면 이해가 쉽다. 운전하면서 목소리로 주문하면 스타벅스 위치가 화면에 연동돼 뜬다. 직접 스타벅스 앱(응용프로그램)을 터치해 사이렌오더 하는 것보다도 편리하다.

일각에선 ‘음성과 터치가 결합된 AI 서비스’란 속성이 유사한 스마트폰의 음성인식 AI와 별다른 차별점이 없다는 의문도 제기된다.

그러나 휴대폰에 인터넷 기능 등을 넣은 스마트폰과 인터넷전화 기능이 추가된 데스크톱PC가 완전히 다르듯, 스마트 디스플레이와 삼성 빅스비 같은 스마트폰 음성인식 AI는 엄연히 별개로 봐야 한다고 관계자들은 짚었다.

SKT 관계자는 “이동성뿐 아니라 ‘콘텐츠 플랫폼’으로서의 성격 차이가 중요 포인트”라며 “화면이 장착된 AI 스피커는 밑단의 데이터를 활용하는 플랫폼을 지향하는 반면 스마트폰에서의 활용은 다양한 콘텐츠 제공보단 음성인식 AI 비서에 좀 더 적합한 형태로 보인다”고 말했다.

김봉구 한경닷컴 기자 kbk9@hankyung.com
기사제보 및 보도자료 open@hankyung.com

ⓒ 한경닷컴, 무단전재 및 재배포 금지