국립국어원, AI에 가르칠 한국어 빅데이터 18억 어절 공개
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
국립국어원은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일 국립국어원 '모두의 말뭉치'(https://corpus.korean.go.kr)에서 공개한다고 밝혔다.
공개하는 자료는 한국어 분야의 빅데이터로, 전문 분야에서는 말뭉치(corpus)라고 한다.
챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다.
국립국어원은 2018년 대규모 한국어 학습 자료 구축 사업을 시작했으며, 이번 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다.
자료는 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.
'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 있다.
각종 인터넷 사이트 블로그, 게시판 등의 자료 210만 건도 포함됐다.
국립국어원은 "초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다"라며 "대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다"고 설명했다.
국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초 개최할 예정이다.
/연합뉴스
공개하는 자료는 한국어 분야의 빅데이터로, 전문 분야에서는 말뭉치(corpus)라고 한다.
챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다.
국립국어원은 2018년 대규모 한국어 학습 자료 구축 사업을 시작했으며, 이번 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다.
자료는 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.
'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 있다.
각종 인터넷 사이트 블로그, 게시판 등의 자료 210만 건도 포함됐다.
국립국어원은 "초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다"라며 "대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다"고 설명했다.
국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초 개최할 예정이다.
/연합뉴스