정부, AI 학습용 데이터 15억건 공개

이승우 기자

입력2023.04.30 17:28 수정2023.05.01 00:59 지면A14

데이터 310종 순차 개방
"초거대 AI 데이터 등 다양화"

정부가 인공지능(AI) 학습용 데이터를 역대 최대 규모로 공개한다.

과학기술정보통신부는 지난해 구축한 AI 학습용 데이터 세트 310종을 오는 7월 말까지 ‘AI 허브’ 사이트를 통해 순차 개방한다고 30일 발표했다.

AI 학습용 데이터는 AI 모델을 만들고 성능을 향상하는 데 필수적이다. 과기정통부는 기업, 연구자, 개발자 등이 쓸 수 있도록 2020년부터 데이터를 구축해왔다. 지금까지 개방된 데이터는 한국어, 이미지·영상, 헬스케어 등 6대 분야 381종, 11억 건에 이른다.

이번에 새롭게 공개하는 데이터 건수는 약 15억 건으로 지금까지 내놓은 데이터 규모를 뛰어넘는다. 지난해부터 데이터 구축 분야를 제조, 로보틱스, 교육, 금융, 스포츠 등 14개로 늘리면서 데이터 규모가 증가했다.

이날부터 1차 개방하는 데이터는 고서(古書) 속 한자·한글의 광학 인식(OCR) 데이터, 실내외 군중 특성 데이터 등 자연어와 AI 비전 분야의 데이터 70종이다. 과기정통부는 7월 말까지 310종 전체를 개방할 방침이다.

엄열 과기정통부 AI정책관은 “기존 라벨링 데이터 중심에서 벗어나 초거대 AI 학습에 필요한 대규모 비(非) 라벨링 데이터와 다중 임무형 라벨링 데이터 등 여러 종류의 데이터를 확보할 것”이라고 말했다.

이승우 기자 leeswoo@hankyung.com

관련 뉴스

1

차로 대학병원 돌진 50대 공무원…"AI 지시로 왔다" 횡설수설

대전 한 대학병원으로 승용차가 돌진하는 사고가 발생했다. 29일 대전서부경찰서 등에 따르면 전날 오후 11시께 현직 공무원인 50대 A씨가 몰던 SM5 승용차가 건양대병원 본관 출입문을 들이받았다. 차량은 그대로 병...
2

"챗GPT 약점 보완"…내부 정보 기반한 Q&A 챗봇 나왔다

국내 대표 인공지능(AI) 스타트업 스켈터랩스는 초거대 AI 언어모델에 자체 대화형 AI 기술을 접목해 전문성 있는 질의응답 업무가 가능한 ‘큐나(QNA)-GPT’를 출시한다고 28일 발표했다. 큐나는 'QnA'를 ...
3

'사상 최악' 분기 실적 낸 인텔 "2분기에도 적자 전망"

삼성전자의 주요 경쟁사 중 한 곳인 미국 인텔이 올해 1분기 사상 최악의 실적을 냈다. 최소 13년래 가장 낮은 수준의 매출을 낸 데다 4조원에 가까운 영업손실을 내며 2개 분기 연속 적자를 이어갔다. 그럼에도 글로...