빅테크도 급했다…"2026년이면 AI가 학습할 데이터 고갈"

오픈AI, 구글 등 콘텐츠 업체와 잇달아 계약
국내 업체들도 뉴스 콘텐츠 확보 안간힘
사진=로이터
인공지능(AI )챗봇 ‘챗GPT’ 등 생성형 AI 서비스의 수요가 급증하면서 데이터 ‘몸값’이 뛰고 있다. AI 성능의 고도화에 관련 데이터 학습이 필수이기 때문이다. 디지털 전환(DX) 시대에 금맥으로 떠오른 데이터가 AI 전환(AX) 시대로 넘어가면서 그 가치가 훨씬 커졌다는 분석이 나온다.

LLM에 뉴스 콘텐츠 필수

최근 글로벌 AI 산업을 주도하는 빅테크들이 합법적인 뉴스 콘텐츠 확보에 혈안이다. 그동안 AI 학습에 관련 데이터를 무단으로 활용했다는 비판이 끊이지 않았다. 오픈AI는 최근 CNN, 폭스, 타임 등 미국 언론사와 콘텐츠 사용 계약을 추진 중인 것으로 알려졌다. 앞서 오픈AI는 AP통신, 다국적 미디어그룹 악셀 스프링어와 저작권 관련 계약을 체결했다. 뉴욕타임스는 오픈AI와 마이크로소프트(MS)가 AI 챗봇 훈련에 자사 기사 수백만 건을 동의 없이 활용했다며 소송을 제기하기도 했다. 애플도 AI의 훈련에 뉴스 콘텐츠를 합법적으로 사용하기 위해 다양한 언론사와 협상 중이다. 잡지 ‘보그’와 ‘뉴요커’를 발행하는 콘데 나스트, NBC뉴스 등과 최소 5000만달러 규모로 저작권 계약을 논의 중인 것으로 알려졌다.

국내에서도 AI 기업들이 관련 콘텐츠 확보에 나서고 있다. 업스테이지는 고성능 한국어 거대언어모델(LLM) 개발을 위해 지난해 기업·기관 20여 곳과 ‘1T 클럽’을 발족했다. 협업 기업이나 기관이 보유한 1억 단어 이상 한국어 데이터를 업스테이지에 제공하고, 업스테이지는 고능성 LLM와 관련 수익을 공유하는 방식으로 협력한다. 김성훈 업스테이지 대표는 ”'1T 클럽’으로 데이터 제공자들의 권익을 지키고 한국 문화와 정서를 담을 LLM을 개발할 것”이라고 말했다.

LLM 개발사 코난테크놀로지도 한국언론진흥재단에서 국내 뉴스 콘텐츠를 구입하고 있다. 반면 네이버는 생성형 AI ‘하이퍼클로바X’ 개발 과정에서 국내 뉴스 콘텐츠를 부당하게 활용했다는 의혹으로 한국신문협회로부터 공정거래위원회에 신고당하기도 했다.

AI 학습 데이터 고갈 우려

국내외 AI 기업이 데이터 확보에 앞다퉈 나선 건 AI 성능 향상을 위해서다. AI 서비스의 바탕 기술인 LLM 등은 데이터 학습 없이는 고도화할 수 없다. 이우진 동국대학교 AI학과 교수는 “LLM은 보통 매개변수가 많을수록 성능도 좋아지는데 매개변수가 커지면 그만큼 데이터도 필요하다”고 설명했다. 구글이 지난해 5월 공개한 AI챗봇 바드는 1조5600억 개 이상의 단어를 학습한 것으로 알려졌다.

AI가 학습할 데이터가 급격히 감소하는 것도 AI 기업의 데이터 확보 경쟁을 부추겼다. 영국 과학 전문지 뉴사이언티스트는 언어 데이터 부족으로 오는 2026년에 AI 챗봇 발전이 정체될 수 있다는 연구 결과를 지난해 내놨다. 글로벌 AI 챗봇 훈련에 필요한 언어 데이터 크기는 최근에 연간 50% 정도 늘었다. 하지만 사람이 만든 관련 데이터의 증가율은 연간 7%에 그친 것으로 추정된다. 2026년 정도에는 AI가 새로 학습할 데이터가 더 이상 없다는 계산이 나온다.

언어 데이터보다 특정 분야의 대규모 데이터의 몸값이 크게 올랐다는 분석도 있다. LLM 등 고성능 AI 모델을 이전보다 싼 값에 사용할 수 있게 되면서 AI 서비스가 다양해지고 있다. 여기선 언어 데이터보다 해당 서비스와 관련 데이터가 필요하다. 쇼핑몰 에이블리를 운영하는 에이블리코퍼레이션은 대규모의 고객 데이터를 학습한 AI 모델의 추천 기술을 앞세워 지난해 첫 흑자를 달성했다. 이 회사만 보유한 데이터를 활용한 성과다. 고객사의 AI 모델 구축을 돕는 테크 기업 베슬에이아이의 안재만 대표는 “AI 모델 도입이 쉬워지면서 데이터가 기업의 가장 큰 자산이 됐다”고 설명했다.

김주완/장강호 기자 kjwan@hankyung.com