[이슈+] 똑똑해진 '카카오미니', 영어도 주인 목소리도 알아듣는다
한국어만 알아듣던 카카오의 인공지능(AI) 스피커 '카카오미니'가 영어까지 알아듣게 된다.

김훈 카카오 AI 부문 음성처리파트장(사진)은 25일 서울 종로 마이크임팩트스퀘어에서 열린 'AI 미디어스터디'에서 음성인식에 대한 전반적인 설명과 함께 카카오가 추진하고 있는 이같은 계획을 밝혔다.

음성 인식은 일반적으로 사람 간의 대화처럼 사용자의 말을 기계가 알아듣고 이용자의 명령과 의도를 파악해 그에 따른 결과를 전달하는 과정을 말한다. 즉 입력된 음성에 대해 여러 단계의 처리과정을 거친 후 단어열로 변환해 출력하는 과정이다.

음성 인식은 이용자가 음성 명령을 내렸을 때 음성 인식기는 표현할 수 있는 모든 단어들의 조합 중 확률적으로 가장 가능성이 높은 단어를 찾아낸다. 이 과정에서 음성 신호(소리)를 분석해 신호적 특성을 분석하는 음향 모델과 특정 단어가 말해질 언어적 확률을 분석하는 언어 모델이 사용된다.

언어 모델은 명령어를 분석해 단어들 간의 결합 확률을 예측하는 과정이다. 예를 들어 '일리가 있다고 생각한다'라는 문장에서 ‘일리’가 ‘일리’(一理), ‘illy’(커피 체인점), ‘1,2’ 중 어떤 단어일 확률이 높을지 전체 문장을 보고 예측하는 식이다.

김 파트장은 "언어 모델은 음향 모델에만 의존했을 때 나올 수 있는 인식 오류를 차단하고 인식 품질을 높이는 역할을 한다"며 "결국 두 모델이 얼마나 잘 설계돼 있고 잘 작동하며 잘 학습하는지가 음성 인식의 품질에 영향을 준다"고 언급했다.
음성인식 과정/자료=카카오
음성인식 과정/자료=카카오
현재 카카오미니는 한국어만 인식하고 있다. 카카오는 이를 확장해 영어, 일본어, 중국어까지 순차적으로 확대할 계획이다. 현재 영어 인식에 대한 기술 개발은 완료된 상태다.

이에 카카오는 연내 번역 엔진과 결합해 카카오미니에 영어를 말하면 한국어로 번역해주는 개념의 음성번역 기능을 업데이트할 예정이다.

김 파트장은 "영어 음성 인식이 오류가 날 확률은 약 10%정도"라며 "다만 영어의 데이터베이스에 대한 차이로 우리나라 사람들이 말할 경우 발음 등의 문제로 인식을 못할 확률이 존재한다"고 말했다.

또 카카오는 카카오미니에 화자(말하는 사람) 인식 기능을 도입한다. 화자 인식이란 등록된 화자의 목소리를 인식해 사람을 구별하는 기술이다. 음성으로 화자 A와 B를 구별한다는 뜻이다.

카카오는 화자 인식 기능을 도입해 카카오 미니의 '보이스 프로필'을 업데이트할 예정이다. 보이스 프로필은 이용자가 카카오미니 설정앱에서 간단한 과정으로 자신의 목소리를 등록해 만들 수 있다. 목소리만으로 자신의 프로필을 만들 수 있게된 것.

카카오는 보이스 프로필 기능을 통해 화자 인식 기반의 맞춤형 서비스를 시작할 계획이다. 구체적으로는 카카오톡 메시지를 읽어주는 기능을 업데이트할 예정이다. 이 기능은 보이스 프로필 등록자가 아닌 이의 요청에는 메시지를 읽어주지 않아 보안을 강화시킨다.

이 밖에 카카오는 화자 인식 기술을 사용해 이용자 맞춤형 대화나 이용자 목소리 이외 주변 잡음을 제거하는 등의 음성 인식률 향상 등에 사용될 예정이다.

또 올해 상반기부터 카카오미니에 유명 연예인의 목소리가 추가된다. 현재 성우의 목소리를 완전히 대처하는 수준은 아니지만 특정한 상황이나 대화에서 유명인이나 연예인의 목소리를 들을 수 있을 것으로 예상된다.

카카오 관계자는 "올해 6월안에 유명 연예인의 목소리가 나오는 서비스가 제공될 것"이라며 "유명인은 현재 정해진 상태이나 연예인은 아직 정해지지 않았다"고 설명했다.

최수진 한경닷컴 기자 naive@hankyung.com