출판사 490여 곳의 모임인 한국출판인회의가 챗GPT 등 대화형 인공지능(AI)이 저작권을 침해할 우려가 있다며 출판사에 주의령을 내렸다. 정보기술(IT) 기업들이 학습 데이터를 확보하는 과정에서 도서 등의 출판물 콘텐츠를 무단으로 사용할 위험이 커지고 있다는 판단에서다.

6일 출판업계에 따르면 출판인회의는 최근 회원사에 보낸 공문에서 “대화형 AI 서비스는 방대한 양의 기초 데이터가 필요하며, 한국어 서비스는 더 정확한 콘텐츠 생산을 위해 인터넷상의 국내 출판 저작물 자료가 활용될 수 있다”며 “AI가 기존 창작물을 학습한 뒤 결과물을 만들어낸다는 점에서 저작권 문제가 생길 수 있다”고 지적했다.

이어 “IT 기업들이 추후 한국형 AI 서비스를 개발하고 출시하기 위해 출판 저작물이나 콘텐츠를 활용할 가능성이 있기 때문에 이에 대한 출판사의 콘텐츠 제공은 신중할 필요가 있다”며 “AI 서비스와 관련해 출판 콘텐츠를 제공할 때는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정해야 ‘문어 말뭉치’ 사태와 같은 저작물 무단 이용에 따른 저작권 침해를 막을 수 있다”고 강조했다.

지난해 불거진 문어 말뭉치 사태는 웅진북센이 국립국어원 말뭉치 사업에 참여하면서 약 1만6000종의 저작권을 무단 사용한 사건을 말한다. 국립국어원은 AI 시대에 필요한 우리말 빅데이터를 확보하기 위해 2019년 이 사업을 시작했다. 웅진북센은 사업에 참여하면서 2010년 인수한 전자책 회사 북토피아의 책 콘텐츠를 그대로 썼는데, 그 과정에서 출판사의 허락을 받지 않아 문제가 됐다.

출판업계에선 이와 같은 저작권 침해가 갈수록 늘어날 수 있다고 우려한다. IT 기업들이 인터넷상의 자료를 긁어모으면서 서적 콘텐츠를 무단으로 가져다 쓸 위험이 커지고 있기 때문이다. 미국 오픈AI가 개발한 챗GPT도 각종 책의 콘텐츠를 무단으로 썼다는 의심을 받고 있다. 챗GPT는 인터넷에 공개된 여러 자료를 학습했는데, 이 가운데 도서 콘텐츠를 어디서 구했는지 오픈AI는 명확히 밝히지 않았다. 국내 IT 기업도 어떻게 학습 데이터를 확보하고 있는지 정확하게 밝힌 적은 없다. 출판업계 관계자는 “2~3년 전에 몇몇 업체가 단행본을 AI 학습에 쓰고 싶다고 문의해왔지만 계약까지 이어지지 않았다”며 “어떤 업체는 인터넷 서점 등에 미리보기로 공개된 책 내용을 가져다 쓰는 것으로 알고 있다”고 말했다.

홍영완 한국출판인회의 부회장은 “특히 저자와 저작인접권자의 권리를 보호하는 것이 시급하다”며 “작가가 몇 년을 공들인 책 내용과 문장을 짜깁기해 보여주면서 출처도 표시하지 않는 것은 문제가 많다”고 말했다.

임근호 기자 eigen@hankyung.com