한국출판인회의 "챗GPT 등 출판 저작권 침해 위험 커"
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
490여 출판사들 모임인 한국출판인회의
회원사에 공문 보내 AI의 저작권 침해 위험 경고
학습 데이터 수집 과정에서 책 콘텐츠 무단 사용 가능성
미국 챗GPT도 책 콘텐츠 무단 사용 의심 받아
“저자가 몇 년 공들인 콘텐츠, 출처 표시도 없이 짜깁기 안 돼”
회원사에 공문 보내 AI의 저작권 침해 위험 경고
학습 데이터 수집 과정에서 책 콘텐츠 무단 사용 가능성
미국 챗GPT도 책 콘텐츠 무단 사용 의심 받아
“저자가 몇 년 공들인 콘텐츠, 출처 표시도 없이 짜깁기 안 돼”
490여 출판사들의 모임인 한국출판인회의가 챗GPT 등 대화형 인공지능(AI)이 저작권을 침해할 우려가 있다며 출판사들에 주의령을 내렸다. 정보기술(IT) 기업들이 한국어 학습 데이터를 확보하는 과정에서 책 콘텐츠를 무단으로 사용할 위험이 커지고 있다는 진단이다.
출판인회의는 최근 회원사들에 보낸 공문에서 “대화형 인공지능 서비스는 방대한 양의 기초 데이터가 필요하며, 한국어 서비스의 경우 더 정확한 콘텐츠 생산을 위해 인터넷상의 국내 출판저작물 자료가 활용될 수 있다”며 “인공지능이 기존 창작물을 학습한 뒤 결과물을 만들어낸다는 점에서 저작권 문제가 생길 수 있다”고 지적했다.
이어 “IT 기업들이 추후 한국형 인공지능 서비스를 개발하고 출시하기 위해 출판저작물이나 콘텐츠를 활용할 가능성이 있기 때문에, 이에 대한 출판사의 콘텐츠 제공은 신중할 필요가 있다”며 “인공지능 서비스 관련 출판 콘텐츠 제공에 대해서는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정해야 ‘문어 말뭉치’ 사태와 같은 저작물 무단 이용에 따른 저작권 침해를 막을 수 있다”고 강조했다.
지난해 불거진 문어 말뭉치 사태는 웅진그룹의 출판물류회사인 웅진북센이 국립국어원 말뭉치 사업에 참여하면서 약 1만6000종의 저작권을 무단 사용한 사건을 말한다. 말뭉치(corpus)란 문자 또는 음성으로 된 대규모 언어 자료를 뜻한다. 국립국어원은 인공지능 시대에 필요한 우리말 빅데이터를 확보하기 위해 2019년 이 사업을 시작했다.
웅진북센은 사업에 참여하면서 2010년 인수한 전자책 회사 북토피아의 책 콘텐츠를 그대로 썼는데, 그 과정에서 출판사의 허락을 받지 않아 문제가 됐다. 사태는 올 초 웅진북센이 2027년까지 피해 출판사들에 저작권 이용료를 지급하기로 합의하면서 일단락됐다.
출판업계에선 챗GPT를 계기로 대규모 언어모델(LLM)이 각광을 받으면서, 이와 같은 저작권 침해 사례가 더 늘어날 수 있다고 우려한다. 대화형 인공지능을 개발하는 IT 기업들이 인터넷상의 자료를 긁어모으며 책 콘텐츠를 무단으로 가져다 쓸 위험이 커지고 있기 때문이다.
미국 오픈AI가 개발한 챗GPT 역시 책 콘텐츠를 무단으로 썼다는 의심을 받고 있다. 챗GPT와 그 엔진인 GPT-3에 쓰인 학습 데이터의 60%는 커먼크롤에서 왔다. 인터넷에서 수집한 데이터를 누구나 쓸 수 있도록 개방한 비영리 사이트다.
그 외 기타 웹 텍스트가 22%, 책 콘텐츠인 ‘북스1’과 ‘북스2’가 15%, 위키백과가 3%를 차지한다. 오픈AI는 책 콘텐츠를 어디서 얻었는지 밝히지 않고 있다. 일각에선 북스1은 ‘스매쉬워즈’에서 가져온 무료 전자책, 북스2는 러시아에 근거를 둔 불법 사이트인 ‘라이브러리 제네시스’에서 가져온 것으로 추측한다.
국내 IT 기업들도 어떻게 학습 데이터를 확보하고 있는지 정확하게 밝힌 적은 없다. 출판업계 관계자는 “2~3년 전에 몇몇 업체가 단행본을 AI 학습에 쓰고 싶다며 문의해왔지만 실제 계약으로까지는 이어지지 않았다”며 “어떤 업체는 인터넷 서점 등에 ‘미리보기’로 공개된 책 내용을 가져다 쓰는 것으로 알고 있다”고 말했다.
출판업계는 “국내 업체들의 대화형 인공지능 서비스 개발에 반대하지 않는다”며 “다만 AI 경쟁 속에 무분별하게 저작권이 침해되면서 출판 산업이 망가지는 일이 있어선 안 된다”고 강조한다.
홍영완 한국출판인회의 부회장은 “특히 저자와 저작인접권자의 권리를 보호하는 것이 시급하다”며 “작가가 몇 년을 공들여 쓴 책 내용과 문장을 짜깁기해 보여주면서 출처도 표시하지 않는 것은 문제가 많다”고 말했다.
한국출판인회의는 챗GPT 등과 관련해 출판 콘텐츠가 정당하게 저작권과 출판권을 인정받을 수 있도록 정책을 강구할 계획이다. 또 책의 콘텐츠를 불법으로 스캔, 복제하고 유통하는 업체에 대해 정부에 단속을 요청하고, 대책을 마련해나가기로 했다.
임근호 기자 eigen@hankyung.com
출판인회의는 최근 회원사들에 보낸 공문에서 “대화형 인공지능 서비스는 방대한 양의 기초 데이터가 필요하며, 한국어 서비스의 경우 더 정확한 콘텐츠 생산을 위해 인터넷상의 국내 출판저작물 자료가 활용될 수 있다”며 “인공지능이 기존 창작물을 학습한 뒤 결과물을 만들어낸다는 점에서 저작권 문제가 생길 수 있다”고 지적했다.
이어 “IT 기업들이 추후 한국형 인공지능 서비스를 개발하고 출시하기 위해 출판저작물이나 콘텐츠를 활용할 가능성이 있기 때문에, 이에 대한 출판사의 콘텐츠 제공은 신중할 필요가 있다”며 “인공지능 서비스 관련 출판 콘텐츠 제공에 대해서는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정해야 ‘문어 말뭉치’ 사태와 같은 저작물 무단 이용에 따른 저작권 침해를 막을 수 있다”고 강조했다.
지난해 불거진 문어 말뭉치 사태는 웅진그룹의 출판물류회사인 웅진북센이 국립국어원 말뭉치 사업에 참여하면서 약 1만6000종의 저작권을 무단 사용한 사건을 말한다. 말뭉치(corpus)란 문자 또는 음성으로 된 대규모 언어 자료를 뜻한다. 국립국어원은 인공지능 시대에 필요한 우리말 빅데이터를 확보하기 위해 2019년 이 사업을 시작했다.
웅진북센은 사업에 참여하면서 2010년 인수한 전자책 회사 북토피아의 책 콘텐츠를 그대로 썼는데, 그 과정에서 출판사의 허락을 받지 않아 문제가 됐다. 사태는 올 초 웅진북센이 2027년까지 피해 출판사들에 저작권 이용료를 지급하기로 합의하면서 일단락됐다.
출판업계에선 챗GPT를 계기로 대규모 언어모델(LLM)이 각광을 받으면서, 이와 같은 저작권 침해 사례가 더 늘어날 수 있다고 우려한다. 대화형 인공지능을 개발하는 IT 기업들이 인터넷상의 자료를 긁어모으며 책 콘텐츠를 무단으로 가져다 쓸 위험이 커지고 있기 때문이다.
미국 오픈AI가 개발한 챗GPT 역시 책 콘텐츠를 무단으로 썼다는 의심을 받고 있다. 챗GPT와 그 엔진인 GPT-3에 쓰인 학습 데이터의 60%는 커먼크롤에서 왔다. 인터넷에서 수집한 데이터를 누구나 쓸 수 있도록 개방한 비영리 사이트다.
그 외 기타 웹 텍스트가 22%, 책 콘텐츠인 ‘북스1’과 ‘북스2’가 15%, 위키백과가 3%를 차지한다. 오픈AI는 책 콘텐츠를 어디서 얻었는지 밝히지 않고 있다. 일각에선 북스1은 ‘스매쉬워즈’에서 가져온 무료 전자책, 북스2는 러시아에 근거를 둔 불법 사이트인 ‘라이브러리 제네시스’에서 가져온 것으로 추측한다.
국내 IT 기업들도 어떻게 학습 데이터를 확보하고 있는지 정확하게 밝힌 적은 없다. 출판업계 관계자는 “2~3년 전에 몇몇 업체가 단행본을 AI 학습에 쓰고 싶다며 문의해왔지만 실제 계약으로까지는 이어지지 않았다”며 “어떤 업체는 인터넷 서점 등에 ‘미리보기’로 공개된 책 내용을 가져다 쓰는 것으로 알고 있다”고 말했다.
출판업계는 “국내 업체들의 대화형 인공지능 서비스 개발에 반대하지 않는다”며 “다만 AI 경쟁 속에 무분별하게 저작권이 침해되면서 출판 산업이 망가지는 일이 있어선 안 된다”고 강조한다.
홍영완 한국출판인회의 부회장은 “특히 저자와 저작인접권자의 권리를 보호하는 것이 시급하다”며 “작가가 몇 년을 공들여 쓴 책 내용과 문장을 짜깁기해 보여주면서 출처도 표시하지 않는 것은 문제가 많다”고 말했다.
한국출판인회의는 챗GPT 등과 관련해 출판 콘텐츠가 정당하게 저작권과 출판권을 인정받을 수 있도록 정책을 강구할 계획이다. 또 책의 콘텐츠를 불법으로 스캔, 복제하고 유통하는 업체에 대해 정부에 단속을 요청하고, 대책을 마련해나가기로 했다.
임근호 기자 eigen@hankyung.com