[천자칼럼] 자동번역
얼마 전에도 자동번역기 때문에 빵 터졌다. ‘겨울왕국’ 유튜브 자막에 뜬 문장은 “당신이 눈사람을 구축하고자 하십니까?”였다. 애들 대화 “Do you wanna build snowman(같이 눈사람 만들래)?”를 기계가 옮긴 결과다. 이 정도는 애교다. 육회가 ‘six times’로 둔갑하고, 생선 이름 방어는 ‘defense fish’, 곰탕은 ‘bear thang’으로 뒤바뀐다.

자동번역의 역사가 70년이나 됐는데도 이 모양이다. 미국 수학자 위버가 가능성을 제시한 것이 1947년이고, 조지타운대와 IBM이 러시아어의 영어 번역 기술을 개발한 게 1954년이다. 1980년대부터는 컴퓨터로 문장의 의미를 파악하는 ‘자연언어처리 기술’ 덕분에 비약적인 발전을 거듭했다.

문장의 의미를 알아내는 첫 단계는 형태소 분석이다. 문장을 기본 단위로 나누고 다시 조합하면서 단어를 찾는다. ‘엄마가’에서 명사 ‘엄마’와 조사 ‘가’를 구분하는 식이다. 안타까운 것은 우리말의 형태소 분석이 어렵다는 점이다. 존댓말 같은 어미 변화가 많고 조사의 종류도 많은 데다 띄어쓰기까지 헷갈린다. 동음이의어는 더 애매하다. 주어나 목적어를 생략하고 순서를 바꾸는 바람에 문맥으로 파악해야 하는 경우가 많다.

자동번역의 정확도는 두 언어가 얼마나 비슷한지에 따라 달라진다. 라틴 계통 언어끼리는 비교적 쉽다. 중국어도 영어와 어순이 같아 유리하다. 일본어 또한 한자 때문에 중국어와 넘나들기 수월하다. 우리말 번역은 이런 점에서도 가장 불리하다. 어순이 같은 일본어와도 아직 완전하지 않다. 한참 거리가 먼 알파벳 언어권과는 더 쉽지 않다.

이 밖에도 우리말 개념어가 부족한 탓이라는 지적이 있다. 본디 한자였던 어휘를 순한글로 쓰면서 기계가 의미를 파악하지 못하는 사례도 허다하다. 사용자 기반의 참여자가 늘어나야 하는데 이를 꺼리는 문제까지 겹쳤다. 대부분의 번역 솔루션은 사용자가 늘어날수록 성능이 좋아지도록 설계돼 있다.

구글이 곧 음성 대화를 문자로 실시간 번역해주는 앱을 내놓겠다고 한다. 원하는 언어로 즉석에서 번역해준다니 놀라운 기술이다. 지금까지는 문장 번역이 주였지만 음성 번역까지 가능하게 된 것이다. 마이크로소프트(MS)도 지난달 화상 채팅 통역을 선보였다. 가히 IT의 신기원이다. 뉴욕타임스는 “IT가 바벨탑을 다시 쌓기 위해 사력을 다하고 있다”고 했다. 그런데 한국어는 어떤가. 언제쯤 국제 미아 신세에서 벗어날 수 있을까.

고두현 논설위원 kdh@hankyung.com