사진=게티이미지뱅크
사진=게티이미지뱅크
며칠 전 기자회견장에서 인공지능(AI)가 화자의 말을 알아듣지 못해 좌중을 웃게 만든 일이 있었다. 지난달 31일 LG유플러스가 AI와 증강현실(AR)을 강화한 인터넷TV(IPTV) 키즈 콘텐츠를 새롭게 공개한 자리였다.

이날 LG유플러스는 아이들의 외국어 공부에 도움될 만한 기능을 소개했다. 말을 하면 AI가 이를 인식해 외국어로 번역하는 기능이다. 시연에 나선 직원은 "만나서 반갑습니다. 이 자리에 참석해주셔서 고맙습니다"라고 말했지만, AI는 뜬금없이 "났습니다 이 자리에서…"라고 인식해버렸다.

이같은 상황은 AI 콘텐츠를 공개하는 기자회견장에서 자주 목격된다. 지난달 12일 구글이 '안드로이드 오토'를 소개하는 자리에서는 발화자가 틀어달라고 한 노래가 아닌 다른 노래가 나오는 해프닝도 있었다.

이 때마다 AI의 음성인식률이 지적되곤 한다. 특히 AI의 음성인식에 대한 우려는 키즈 콘텐츠와 만날 때 더 커진다. 성인의 목소리도 한번에 인식하지 못하는데 발음이 부정확한 아이들의 목소리를 인식할 수 있겠냐는 이유에서다.

보통 업계가 생각하는 키즈 콘텐츠의 주요 타깃 연령은 3~7세 정도다. 말을 한창 배우는 아이들이란 얘기다. 이 때문에 아이들을 위한 AI 음성인식 기술이 보편화 되려면 우선적으로 기술적인 문제가 보완돼야 한다.
사진=게티이미지뱅크
사진=게티이미지뱅크
업계도 이러한 문제점을 인식하고 있다. 아이러니하게도 해결 방법은 그럴수록 아이들이 더 많은 발화(發話)를 해야 한다는 것이다. 아이들의 발음에 대한 음성 데이터가 많아야 분석을 많이 할 수 있고 이를 통해 인식률도 올라가서다.

물론 데이터 수집만 많다고 모두 해결되는 것은 아니다. 하드웨어의 기기 역할도 중요하다. 앞서 들었던 LG유플러스의 경우 마이크의 ‘하울링’ 영향으로 음성이 또렷하게 들리지 않은 탓도 있었다. 마이크의 성능이 좋을 수록 음성 인식이 잘 되는 원리다.

업계 한 관계자는 “음성인식 연구는 어른, 아이 할 것 없이 모두 진행되는 것이고 데이터를 바탕으로 인식 기술 고도화는 당연한 수순으로 진행되고 있다”며 “하드웨어나 음성인식 엔진의 기능이 같이 고도화돼야 음성 인식률이 높아질 것”이라고 조언했다.

국내 키즈 시장은 지난해 40조원 규모로 성장했다. 시장의 규모가 커지는 만큼 정보통신기술(ICT)을 접목한 키즈 콘텐츠 개발도 활발해지고 있다. 그 중 하나가 AI 음성인식 기능을 활용한 IPTV 키즈 콘텐츠다.

AI 음성인식 서비스가 원활히 작동하기 위한 첫 번째 조건은 음성 인식률이다. AI가 발화자의 말을 잘 알아들어야 서비스 질이 높아져서다. '사과'를 '사고'로 알아듣는 AI 스피커를 사려는 사람은 없을 것이다.

최수진 한경닷컴 기자 naive@hankyung.com