국립국어원, 인공지능에 가르칠 한국어 자료 2차 공개
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
국립국어원은 인공지능의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종을 30일 국립국어원 '모두의 말뭉치'(https://corpus.korean.go.kr)에서 공개한다고 밝혔다.
국립국어원은 지난해 8월 '모두의 말뭉치'에서 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다.
이번에 공개하는 자료는 새로 공개하는 자료 5종과 기존 공개 자료에서 내용을 추가하고 오류를 수정한 3종이다.
일상 대화, 신문기사 등 400만 건의 자료와 900만 어절로 구성돼 있다.
이번에 새로 공개하는 자료는 2020년 구축한 일상 대화 말뭉치 2천232건, 대화를 녹음한 음성 자료 500시간 분량, 2019년 생산된 35개 매체의 신문 기사 63만여 건, 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 600만 어절이다.
상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고, 무형 대용어 복원 말뭉치는 대화나 문장에서 생략된 주어나 목적어 등을 복원한 자료다.
국립국어원은 "음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2천500여 명의 참여자와 모두 이용 허락 계약을 체결, 구축해 음성 활용 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있을 것"이라고 기대했다.
이번 공개 자료에는 기존에 배포한 신문 자료와 문장을 구성하는 단어들의 문법적 관계를 분석한 말뭉치를 수정, 보완한 자료도 담았다.
또 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 '서울말 낭독체 발화 말뭉치'도 형식과 내용을 다듬어 포함했다.
자료는 '모두의 말뭉치' 누리집에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.
/연합뉴스
국립국어원은 지난해 8월 '모두의 말뭉치'에서 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다.
이번에 공개하는 자료는 새로 공개하는 자료 5종과 기존 공개 자료에서 내용을 추가하고 오류를 수정한 3종이다.
일상 대화, 신문기사 등 400만 건의 자료와 900만 어절로 구성돼 있다.
이번에 새로 공개하는 자료는 2020년 구축한 일상 대화 말뭉치 2천232건, 대화를 녹음한 음성 자료 500시간 분량, 2019년 생산된 35개 매체의 신문 기사 63만여 건, 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 600만 어절이다.
상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고, 무형 대용어 복원 말뭉치는 대화나 문장에서 생략된 주어나 목적어 등을 복원한 자료다.
국립국어원은 "음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2천500여 명의 참여자와 모두 이용 허락 계약을 체결, 구축해 음성 활용 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있을 것"이라고 기대했다.
이번 공개 자료에는 기존에 배포한 신문 자료와 문장을 구성하는 단어들의 문법적 관계를 분석한 말뭉치를 수정, 보완한 자료도 담았다.
또 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 '서울말 낭독체 발화 말뭉치'도 형식과 내용을 다듬어 포함했다.
자료는 '모두의 말뭉치' 누리집에서 온라인 약정서를 작성해 승인받으면 누구나 이용할 수 있다.
/연합뉴스