휘갈겨 써도, 훼손된 문장도 정확하게 디지털 문서로 변환

라이징 AI스타트업 (20) 악어디지털

각종 손글씨 데이터 AI 학습
문자판독 엔진 자체 개발해
악어디지털은 인공지능(AI)을 활용해 각종 종이 문서를 디지털 문서로 바꿔주는 스타트업이다. 단순히 서류를 스캔해 이미지 파일로 만드는 게 아니다. 문장이나 단어를 검색·열람할 수 있도록 텍스트로 변환한다. 시큐어소프트, 안랩, 네이버 등을 거친 개발자 출신 김용섭 대표(사진)가 2014년 창립했다. 김 대표가 전자책(e북) 시장이 활성화하기 전에 출장을 가서도 원하는 책을 보기 위해 이미지 스캔본을 만든 게 창업 계기가 됐다.

악어디지털의 핵심 기술은 자체 개발한 AI OCR(광학문자판독) 엔진 ‘KANDA’다. 각종 수기 데이터를 AI에 학습시켜 AI가 문자를 인식·추론하게 했다. 인식률이 낮은 데이터는 사람이 교정해주는 학습 과정을 반복해 정확도를 높였다. KANDA는 문자를 인식하고, 인식한 정보를 일상 언어(자연어) 맥락에 맞게 교정하는 등 두 단계를 거치는 게 특징이다. 이를 통해 ㅎ을 ㄹ처럼 흘려 쓴 글씨나 ㅁ을 ㅇ과 비슷하게 휘갈겨 쓴 글씨도 맥락에 맞게 읽어낸다. 보관 과정에서 구겨졌거나 일부 훼손된 종이 문서도 이 같은 과정을 통해 디지털 문서로 변환할 수 있다는 설명이다. 올해 기준 KANDA의 문자 인식 정확도는 99.34%다.악어디지털의 KANDA는 한글 필기체 문자 약 600만 자, 일본어 필기체 문자 약 120만 자를 학습했다. 기존 데이터를 이용해 스스로 필체를 생성해 내용을 습득하기도 한다. 이를 기반으로 문서를 하루 최대 100만 장 처리할 수 있다.

작년 악어디지털이 디지털 문서로 변환한 종이 문서는 1억2000만 장에 달한다. 대통령기록관, 국회도서관, 삼성바이오로직스, 현대자동차 등 각 분야에 고객사 300여 곳을 두고 있다.

‘전자 문서 및 전자거래 기본법 개정안’이 지난해 시행되면서 전자화 문서(디지털 문서)가 원본 종이 문서와 동일한 법적 효력을 갖게 돼 서비스 수요가 늘었다. 코로나19 장기화와 ESG(환경·사회·지배구조) 경영 확산세도 디지털화 수요 증가에 영향을 미쳤다.악어디지털은 지난 8월 200억원 규모 시리즈B 투자를 유치했다. 누적 투자 유치액은 총 300억원이다. 악어디지털은 AI 엔진을 고도화하고 해외 사업을 늘릴 계획이다.

선한결 기자 always@hankyung.com

핫이슈