"주변 교통 상황을 알려줘." "예 알겠습니다. "

한 남성이 자동차를 운전하며 스마트폰에 교통 정보를 알려 달라고 하자 스마트폰은 알았다며 교통상황을 지도로 보여준다. "아내에게 30분 늦는다고 전해줘." 남성의 음성은 그대로 문자로 바뀌어 전송된다. 지난달 4일 공개된 애플 아이폰4S의 새 기능 '시리(Siri)'를 소개하는 영상의 한 부분이다. 시리는 음성을 인식해 각종 정보와 서비스를 제공한다.

음성 인식이 스마트폰의 중요 기능으로 떠올랐다. 구글을 비롯해 NHN 다음 등도 음성 인식 애플리케이션(앱 · 응용프로그램)을 잇따라 선보였다. 이들 앱은 "한국경제신문"이라고 말하면 한국경제신문과 관련된 검색 결과를 보여준다. 구글의 음성 인식 서비스는 동시 통역까지 가능하다.

대부분의 음성 인식기는 소리를 0.02초 정도 길이로 조각내 분석을 시작한다. 이렇게 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거쳐 최종적으로 특정 숫자로 바뀐다. 이 수치는 인간의 성대 진동 횟수와 음의 높낮이 등을 미리 분석해 만들어놓은 결과물과 매치돼 표시된 것이다. 숫자들을 시간순으로 나열하면 이에 해당하는 문자가 나타난다. 인간의 소리가 시작되는 목의 성문(聲門)에서 음성이 발생해 입 밖으로 나오는 과정을 초당 100회로 사진을 찍을 수 있다면,이를 시간 축으로 나열해 어떤 말인지 계산하는 것과 같다.

여기서 소리의 크기는 중요하지 않다. 사람은 어떤 음량의 '한국'이라는 말을 들어도 모두 한국이라는 언어 정보를 얻는다. 음성 인식기도 마찬가지다. 인간 음성의 크기를 나타내는 성대의 진동 주기는 필요 없기 때문에 관련된 정보들은 버린다.

음성을 인식하기 위해서는 엄청난 양의 데이터베이스(DB)가 필요하다. 스마트폰 자체만으로는 버겁다. 그래서 애플 구글 등은 자체 서버에 접속해 결과물을 낸다.

지난해 방한한 구글의 마이크 슈스터 음성인식 총괄 연구원은 "음성 검색은 관련 자료가 많을수록 정확도가 높아진다"며 "한국어 음성 검색을 내놓기 위해 100시간 넘는 녹취 데이터를 활용했고 한국어 음성 인식률은 70% 정도"라고 말했다.

김주완 기자 kjwan@hankyung.com