무료로 한국어 맞춤법 서비스를 제공해 온 부산대가 상업적인 목적으로 데이터를 수집하는 빅테크에 요금을 물리겠다는 입장을 내놨다. 생성형 인공지능(AI)을 학습시키기 위한 목적으로 유입되는 트래픽(데이터 전송량)이 급증했다는 이유에서다. 국내에서도 AI 학습을 위해 대량의 데이터를 긁어가는 데이터 스크래핑을 둘러싼 논란이 뜨거워지는 모양새다.

부산대, AI 학습 의심 사례 포착

AI 열풍에…국내도 '데이터 절도' 논란 커진다
10일 업계에 따르면 부산대는 2001년부터 무료로 배포한 한국어 맞춤법·문법 검사 서비스를 이달 초 일부 제한하기로 했다. 상업적인 목적으로 데이터를 수집하는 경우엔 서비스를 유료로 공급하기로 했다. 최근 특정 IP에서 한 달간 500만 회 이상 검사기를 사용해 서비스 운영비가 불어난 데 따른 조치다. 이 검사 서비스는 한글과컴퓨터의 문서 프로그램인 ‘아래아 한글’의 맞춤법 검사 기능 등에 활용되고 있다.

부산대 관계자는 “특정 IP에서 거대언어모델(LLM) 학습 목적으로 검사기를 쓴 것으로 의심하고 있다”며 “이런 일이 되풀이되면 서비스 속도 저하가 발생하고 비용이 늘어 무료로 서비스를 제공하기 힘들어진다”고 설명했다.

해외 콘텐츠 기업들도 자사 데이터가 AI 학습에 쓰이는 일을 막기 위해 다양한 조처를 하고 있다. 트위터 최대 주주인 일론 머스크 테슬라 최고경영자(CEO)는 지난 1일 “심각한 데이터 수집과 시스템 조작 문제를 해결하겠다”며 트위터를 통해 볼 수 있는 하루 게시글 수를 유료 구독자 6000개, 무료 구독자 600개로 제한했다. 이후 이용자 반발이 잇따르자 제한 한도를 1만 개(무료 구독자는 1000개)로 상향했다.

세계 최대 온라인 커뮤니티 사이트인 미국의 레딧도 데이터의 상업적 이용을 제한하기 위해 앱프로그래밍인터페이스(API)를 지난 4월 유료화하기로 했다.

구글, 개인정보 방침 바꿔

데이터를 쓰는 쪽인 생성형 AI 업체들은 줄소송에 빠졌다. 지난달 28일 미국 로펌 클락슨은 “챗GPT 개발사인 오픈AI가 SNS 게시글·댓글, 위키피디아 자료 등을 무단으로 활용해 수백만 명의 권리를 침해했다”며 미국 캘리포니아주 북부연방법원에 소송을 제기했다. 2월엔 이미지 제공업체인 게티이미지가 이미지 도용을 주장하며 생성형 AI 개발업체인 스태빌리티AI에 소송을 걸었다.

생성형 AI 업체들은 데이터 스크래핑 논란을 피하기 위해 개인정보 처리 방침을 바꾸고 있다. 구글은 지난 1일 “온라인상에서 공개된 정보를 수집할 수 있다”는 문구의 적용 범위를 ‘언어모델’에서 ‘AI 모델’로 수정했다. 번역 서비스로 명시돼 있던 데이터 활용 범위도 바드, 클라우드AI 등으로 넓혔다.

국내에선 네이버가 “여러분이 제공하는 콘텐츠는 서비스 개선·제공을 위해 AI 분야 기술 등의 연구개발 목적으로 쓰일 수 있다”고 명시하고 있다. 카카오는 AI 학습과 관련된 구체적인 표현은 없지만 “여러분이 회사에 부여하는 (라이선스) 권리는 서비스를 운영, 개선, 홍보하거나 새 서비스를 개발하기 위한 범위 내에서 사용된다”고 밝히고 있다.

이주현 기자 deep@hankyung.com