'말발 대결'에 빅테크 대거 참전…네이버도 '음성 AI' 뛰어들었다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
글로벌 AI 경쟁, 음성 분야로 확전
오픈AI·메타 등 음성 AI 경쟁 돌입
네이버, 스피치X 기술·서비스 예고
오픈AI·메타 등 음성 AI 경쟁 돌입
네이버, 스피치X 기술·서비스 예고

음성 AI 주력하는 빅테크들, 경쟁 '본격화'
26일 업계에 따르면 최근 주요 기업들이 음성 기능을 제공하는 생성형 AI 서비스를 앞다퉈 선보이고 있다. 오픈AI는 지난달 일부 챗GPT 유료 사용자를 대상으로 음성 기능을 제공하기 시작했다. 'GPT-4o'의 고급 음성 모드 알파 버전을 선보인 것.ADVERTISEMENT
오픈AI의 신규 모델은 멀티모달 토대로 텍스트·이미지 데이터를 활용해 음성을 생성할 수 있다. 음성으로 명령을 해도 AI가 내용을 추론하고 결과를 도출한다. 목소리에서 느껴지는 감정을 인지할 수 있는 기능도 갖췄다. 대화를 통해 AI 서비스를 간편하게 이용할 수 있게 된 셈이다.
지난 4일(현지시간)엔 메타가 유명 배우·인플루언소 목소리를 자사 AI 모델에 탑재하기 위한 협상을 진행 중이라는 소식이 알려졌다. 이들의 목소리를 메타 AI 모델인 '메타 AI'에 활용한다는 계획이다.
ADVERTISEMENT
메타는 지난해 6월 영어·프랑스어·스페인어·독일어·폴란드어·포르투갈어 등 6개국 언어를 음성으로 생성하는 '보이스박스'를 개발하기도 했다.
네이버, '스피치X' 공개…실시간 통역 등 예고
네이버도 음성 AI 경쟁에 밀리지 않기 위해 이달 초 자사 초대규모 AI 하이퍼클로바X 기반의 '스피치X' 기술을 공개했다. 네이버의 대표적 멀티모달 LLM으로 꼽히는 스피치X는 텍스트와 음성을 결합해 자연스러운 음성을 생성한다. 복잡한 음성 패턴을 인식하고 언어와 문맥을 이해하도록 설계됐다. 자연스러운 대화가 가능한 것이다.ADVERTISEMENT
네이버는 스피치X의 실시간 음성 번역 기능도 예고했다. 사용자가 말하는 즉시 다른 언어로 번역해 음성을 생성하는 방식으로 실시간 통역 서비스를 제공하겠다는 계획이다. 또 심리 상담부터 대화형 AI 등 가상 비서, 법률·의료 자문에 이르기까지 다양한 용도로 활용할 예정이라고 설명했다.
네이버는 대화형 AI 서비스 '클로바X'에 시각 정보 처리 능력을 추가하는 업데이트를 예고하면서 스피치X를 위한 발판도 마련해 놓은 상태다.
ADVERTISEMENT
정명석 아주대 과학기술정책대학원 교수는 정보통신기획평가원을 통해 "수천억개 이상의 파라미터를 기반으로 한 LLM 중심의 시장은 텍스트·이미지·음악·영상 등 여러 형태의 데이터를 처리하는 LMM으로 진화할 것"이라며 "LMM을 통해 보다 풍부하고 생생한 콘텐츠를 제작할 수 있도록 발전하고 이는 증강현실(AR), 가상현실(VR), 혼합현실(MR) 등의 분야에서 새로운 가능성을 열 것"이라고 내다봤다.
김대영 한경닷컴 기자 kdy@hankyung.com
ADVERTISEMENT
ADVERTISEMENT