챗GPT, 학습 자료 출처 밝히지 않아… "저작권 문제 우려"

한국출판인회의가 오픈AI의 챗GPT 등 대화형 인공지능(AI)이 학습 데이터를 확보하는 과정에서 도서 콘텐츠를 무단으로 사용할 가능성을 제기했다. /사진=로이터

한국출판인회의가 챗GPT 등 대화형 인공지능(AI)의 저작권 침해 가능성에 대해 주의를 요구했다. 학습 데이터를 확보하는 과정에서 도서 등의 출판물을 무단으로 사용할 위험이 커진다는 우려에서다.
지난 6일 출판업계에 따르면 출판인회의는 최근 회원사에 보낸 공문에서 "대화형 AI 서비스는 방대한 양의 기초 데이터가 필요하다"며 "한국어 서비스는 더 정확한 콘텐츠 생산을 위해 인터넷상의 국내 출판 저작물 자료가 활용될 수 있다"고 했다.

그러면서 "AI가 기존 창작물을 학습한 뒤 결과물을 만들어낸다는 점에서 저작권 문제가 생길 수 있다"며 "IT 기업들이 추후 한국형 AI 서비스를 개발하고 출시하기 위해 출판 저작물이나 콘텐츠를 활용할 가능성이 있기 때문에 출판사의 콘텐츠 제공은 신중할 필요가 있다"고 지적했다. 이어 "AI 서비스와 관련해 출판 콘텐츠를 제공할 때는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정해야 '문어 말뭉치' 사태와 같은 저작물 무단 이용에 따른 저작권 침해를 막을 수 있다"고 설명했다.

문어 말뭉치 사태는 도서 도매·유통기업 웅진북센이 2022년 국립국어원 말뭉치 사업에 참여하면서 약 1만6000종의 저작권을 무단 사용한 사건이다. 웅진북센은 국립국어원이 AI 시대에 필요한 우리말 빅데이터를 확보하기 위해 시작한 이 사업에 참여, 2010년 인수한 전자책 회사 북토피아의 책 콘텐츠를 허락 없이 사용해 문제가 됐다.

출판업계에선 저작권 침해 문제가 갈수록 늘어날 수도 있다고 우려한다. IT 기업들이 AI에 정보를 입력할 때 인터넷상의 자료 뿐만 아니라 도서 콘텐츠까지 무단으로 사용할 위험이 있기 때문이다. 오픈AI의 챗GPT도 학습한 자료의 출처를 정확히 밝히지 않아 콘텐츠를 무단으로 썼다는 의심을 받는 것으로 전해졌다.

홍영완 한국출판인회의 부회장은 "저자와 저작인접권자의 권리를 보호하는 것이 특히 시급하다"며 "작가가 몇 년을 공들인 책 내용과 문장을 짜깁기해 보여주면서 출처도 표시하지 않는 것은 문제가 많다"고 했다.

챗GPT, 학습 자료 출처 밝히지 않아… "저작권 문제 우려"

랭킹뉴스

시대 리포트

산업 최신기사