업스테이지가 신규 공개한 OCR 모델 '도큐먼트 파스(Document Parse)'는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서에서도 각 구조와 텍스트 정보를 정확히 분석, 데이터 자산화를 가능하게 한다. 다양한 형식의 문서를 HTML과 같은 구조화된 텍스트 형식으로 전환해 기업이나 기관에서 실제 LLM 활용 시 바로 적용할 수 있다. 업스테이지 측은 "이 모델을 통해 데이터 전처리 과정에서의 정확성뿐만 아니라 속도와 사용성 측면에서도 현재 가장 진보한 형태의 문서 처리 기술을 선보이게 됐다"고 강조했다.
업스테이지는 관련 기술의 성능 측정에 통용될 수 있는 객관적 기준 마련을 위해 문서 구조 분석 벤치마크인 DP-Bench도 함께 공개했다. 결과에 따르면 도큐먼트 파스는 레이아웃 및 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 주요 지표에서 AWS와 MS 를 포함한 빅테크 5개사의 관련 서비스와 비교해 5% 이상 높은 점수를 받았다. 속도 면에서도 1분에 100장을 처리했다.같은 기준을 적용한 AWS 텍스트트랙보다는 10배, 라마 파스보다는 5배 가량 빠른 능력을 보였다.
수식 인식 및 이미지 추출과 같은 새로운 기능도 추가했다. HTML 외에도 헤더 및 테이블 요소를 마크다운 형식으로 제공해 LLM 사용자가 입력 문서의 토큰 크기를 줄일 수 있다. 김성훈 업스테이지 대표는 “각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구가 될 것”이라고 말했다.
고은이 기자 koko@hankyung.com