한컴 'PDF 데이터 추출' 인기…출시 일주일 만에 깃허브 1위
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
한글과컴퓨터는 자사의 PDF(휴대용문서형식) 데이터 추출 오픈소스 ‘오픈데이터로더 PDF v2.0’이 지난 20일 세계 최대 개발 플랫폼 깃허브에서 트렌딩 1위를 달성했다고 23일 발표했다. 깃허브 트렌딩은 전 세계 개발자가 주목하는 오픈소스를 보여주는 지표다.
이 기술은 복잡한 구조의 PDF 문서를 텍스트, 표, 이미지 등으로 분해해 인공지능(AI)이 학습하기 쉬운 데이터 형태로 변환해준다. 한글과컴퓨터는 지난해 7월 PDF 전문 기업 듀얼랩과 협업을 시작해 지난해 9월 초기 버전을 공개했으며 지난 12일 업그레이드된 2.0 버전을 선보였다. 2.0 버전은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 탑재해 외부 서버 전송 없이 구동되는 것이 특징이다.
라현진 기자 raraland@hankyung.com
이 기술은 복잡한 구조의 PDF 문서를 텍스트, 표, 이미지 등으로 분해해 인공지능(AI)이 학습하기 쉬운 데이터 형태로 변환해준다. 한글과컴퓨터는 지난해 7월 PDF 전문 기업 듀얼랩과 협업을 시작해 지난해 9월 초기 버전을 공개했으며 지난 12일 업그레이드된 2.0 버전을 선보였다. 2.0 버전은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 탑재해 외부 서버 전송 없이 구동되는 것이 특징이다.
라현진 기자 raraland@hankyung.com
ADVERTISEMENT
ADVERTISEMENT