[과학칼럼] 정호선 경북대 교수 .. 음성인식 시스템
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
차세대 컴퓨터나 로보트가 지향하는 궁극적인 목표는 한마디로 인간과
같은 수준의 지능을 갖는 것이다. 그러나 현재 우리가 사용하고 있는
컴퓨터의 수준은 계산에 있어서는 인간을 능가할 수 있지만 지능지수로
따진다면 인간과 비교할 수가 없다.
인간의 지능은 1백억개 정도의 신경세포들이 약 1백조개의 연결고리로
서로 연결되어 있는 신경망으로 복잡하게 구성된 대뇌에 의해 실현되고
있다. 이 지능은 다시 지각기능,사고기능,기능제어 기능으로 크게 나뉘며
외부의 세계를 관찰하고 생각하고 이에 대응하는 구조로 되어있다.
이중에서 지각기능은 다시 청각 시각 후각 미각및 촉각의 오감으로
구분된다.
이 오감의 기능을 어떻게 전자시스템으로 잘 구현할 것인가가
신경컴퓨터나 지능로보트를 연구하는 전자공학도들의 숙제로 남아 있는
것이다. 청각기능을 구현하는 기술은 음성합성과 음성인식기술로 나눌수
있으며 음성합성은 상당히 진전되고 있으나 음성인식은 아직 초보적 단계에
불과하다.
오래전부터 인간처럼 말하고 들을수 있는 기계에 대한 관심이 높아
1950년대 컴퓨터가 등장하면서 세계적으로 대학 또는 연구소에서
본격적으로 연구되어 왔다고 할수있다. 그러나 현재까지 상품화된 기계는
아직까지 우리나라에서는 찾아보기 힘들다.
그러면 40여년간이나 연구해왔지만 실용화되지 못한 이유는 무엇인가.
첫째는 사람이 어떻게 음성을 합성하고 인식하는가를 확실히 밝히지
못하였으며 둘째로는 사람의 대뇌와 같은 구조로 된 신경칩을 사용한
신경컴퓨터 기술이 아직 초보단계이기 때문이다.
지금까지 알려진 사람의 음성인식 메커니즘에 의하면 귀에 도달된 소리는
고막을 통해 귓속 달팽이관을 거친후 음이 주파수성분으로 변화된
아날로그신호가 다시 디지털신호로 바뀌어 청각 신경회로망으로 전달된다고
밝혀지고 있다. 전달된 신호는 신경회로망에서 스스로 학습되어 어린이가
옹알거리면서듣고 말하듯이 인식과 합성을 해 나간다.
음성인식기술이 실생활에 사용되기 위해서는 음성인식시스템이 갖고 있는
화자독립,연속음성 및 무한단어 인식과 같은 어려운 문제를 풀어나가야
한다. 그리고 높은 인식률과 실시간으로 인식되어야 함은 물론 제품가격이
저렴해야 한다.
현재 미국시장에 나온 음성인식제품으로는 화자독립으로 50개의
연결단어를 98%정도 인식 할수있는 음성제어시스템이 3천달러 정도이고
화자종속이며 연속음성으로 4만개의 단어를 90%정도 인식할수 있는
스피치시스템 가격이 4만달러 정도로 비싼 편이다.
국내의 많은 대학과 연구소에서도 우리말을 알아듣는 인식시스템을
개발하고자 각기 다른 방법으로 열심히 연구하고 있다.
필자의 연구실에서는 연구범위를 좁게 잡고 실생활에 응용하고자 컴퓨터를
사용하지 않은 대화형 장난감 음성인식 시스템을 개발하는데 역점을 두고
있다. 우선 음성인식의 전 처리회로에는 사람의 귓속 달팽이관과 유사한
기능을 갖는 필터뱅크 칩을 사용한다. 이 칩으로부터 얻은 디지털 값을
신경회로망의 입력으로 사용한다. 학습회로에서는 20개정도의 짧은 문장의
어린이질문 중에서 첫 단어만 분리 인식하여 어떤 어린이의 말도
알아들을수 있도록 하고 장난감이 대답할 때는 음성합성되어 메모리에
저장된 내용을 소리내도록 한다.
이 음성인식시스템을 간단하게 PCB 보드로 만든뒤 커다란 장난감 인형의
뱃속에 넣어 어린이와 대화를 할수 있는 장난감이 개발된다면 현재
수출시장에서 침체된 장난감회사의 경기가 되살아나리라 본다.
대부분 맞벌이 부부가 많은 가정에서 어린이들이 홀로 집에 있는 경우가
많은데 이 경우 어린이 정서안정에도 많은 도움이 될 것이다. 또한
어린이들의 호기심을 불러 일으켜 음성인식과 같은 첨단기술에 대한 관심을
갖도록 하여 미래의 과학자의 꿈을 심어 주는데도 일익을 하리라 본다.
이와같은 기술을 더욱 발전시켜 자동차 전화에 응용한다면 달리면서 전화를
거는 사고의 위험을 덜수 있을 것이다.
음성인식 기술은 대화형 장난감을 비롯하여 음성다이얼전화
음성제어가전기기 음성제어 로보트 음성타자기 자동통역시스템등에
응용될 것이며 이들이 상용화 될 때에는 제2의 정보혁명이 일어날 것이다
같은 수준의 지능을 갖는 것이다. 그러나 현재 우리가 사용하고 있는
컴퓨터의 수준은 계산에 있어서는 인간을 능가할 수 있지만 지능지수로
따진다면 인간과 비교할 수가 없다.
인간의 지능은 1백억개 정도의 신경세포들이 약 1백조개의 연결고리로
서로 연결되어 있는 신경망으로 복잡하게 구성된 대뇌에 의해 실현되고
있다. 이 지능은 다시 지각기능,사고기능,기능제어 기능으로 크게 나뉘며
외부의 세계를 관찰하고 생각하고 이에 대응하는 구조로 되어있다.
이중에서 지각기능은 다시 청각 시각 후각 미각및 촉각의 오감으로
구분된다.
이 오감의 기능을 어떻게 전자시스템으로 잘 구현할 것인가가
신경컴퓨터나 지능로보트를 연구하는 전자공학도들의 숙제로 남아 있는
것이다. 청각기능을 구현하는 기술은 음성합성과 음성인식기술로 나눌수
있으며 음성합성은 상당히 진전되고 있으나 음성인식은 아직 초보적 단계에
불과하다.
오래전부터 인간처럼 말하고 들을수 있는 기계에 대한 관심이 높아
1950년대 컴퓨터가 등장하면서 세계적으로 대학 또는 연구소에서
본격적으로 연구되어 왔다고 할수있다. 그러나 현재까지 상품화된 기계는
아직까지 우리나라에서는 찾아보기 힘들다.
그러면 40여년간이나 연구해왔지만 실용화되지 못한 이유는 무엇인가.
첫째는 사람이 어떻게 음성을 합성하고 인식하는가를 확실히 밝히지
못하였으며 둘째로는 사람의 대뇌와 같은 구조로 된 신경칩을 사용한
신경컴퓨터 기술이 아직 초보단계이기 때문이다.
지금까지 알려진 사람의 음성인식 메커니즘에 의하면 귀에 도달된 소리는
고막을 통해 귓속 달팽이관을 거친후 음이 주파수성분으로 변화된
아날로그신호가 다시 디지털신호로 바뀌어 청각 신경회로망으로 전달된다고
밝혀지고 있다. 전달된 신호는 신경회로망에서 스스로 학습되어 어린이가
옹알거리면서듣고 말하듯이 인식과 합성을 해 나간다.
음성인식기술이 실생활에 사용되기 위해서는 음성인식시스템이 갖고 있는
화자독립,연속음성 및 무한단어 인식과 같은 어려운 문제를 풀어나가야
한다. 그리고 높은 인식률과 실시간으로 인식되어야 함은 물론 제품가격이
저렴해야 한다.
현재 미국시장에 나온 음성인식제품으로는 화자독립으로 50개의
연결단어를 98%정도 인식 할수있는 음성제어시스템이 3천달러 정도이고
화자종속이며 연속음성으로 4만개의 단어를 90%정도 인식할수 있는
스피치시스템 가격이 4만달러 정도로 비싼 편이다.
국내의 많은 대학과 연구소에서도 우리말을 알아듣는 인식시스템을
개발하고자 각기 다른 방법으로 열심히 연구하고 있다.
필자의 연구실에서는 연구범위를 좁게 잡고 실생활에 응용하고자 컴퓨터를
사용하지 않은 대화형 장난감 음성인식 시스템을 개발하는데 역점을 두고
있다. 우선 음성인식의 전 처리회로에는 사람의 귓속 달팽이관과 유사한
기능을 갖는 필터뱅크 칩을 사용한다. 이 칩으로부터 얻은 디지털 값을
신경회로망의 입력으로 사용한다. 학습회로에서는 20개정도의 짧은 문장의
어린이질문 중에서 첫 단어만 분리 인식하여 어떤 어린이의 말도
알아들을수 있도록 하고 장난감이 대답할 때는 음성합성되어 메모리에
저장된 내용을 소리내도록 한다.
이 음성인식시스템을 간단하게 PCB 보드로 만든뒤 커다란 장난감 인형의
뱃속에 넣어 어린이와 대화를 할수 있는 장난감이 개발된다면 현재
수출시장에서 침체된 장난감회사의 경기가 되살아나리라 본다.
대부분 맞벌이 부부가 많은 가정에서 어린이들이 홀로 집에 있는 경우가
많은데 이 경우 어린이 정서안정에도 많은 도움이 될 것이다. 또한
어린이들의 호기심을 불러 일으켜 음성인식과 같은 첨단기술에 대한 관심을
갖도록 하여 미래의 과학자의 꿈을 심어 주는데도 일익을 하리라 본다.
이와같은 기술을 더욱 발전시켜 자동차 전화에 응용한다면 달리면서 전화를
거는 사고의 위험을 덜수 있을 것이다.
음성인식 기술은 대화형 장난감을 비롯하여 음성다이얼전화
음성제어가전기기 음성제어 로보트 음성타자기 자동통역시스템등에
응용될 것이며 이들이 상용화 될 때에는 제2의 정보혁명이 일어날 것이다