"AI 학습용 데이터, 인공지능으로 제작"

합성데이터 시장 급성장

올해 시장 규모 36조원 추정
국내선 슈퍼브AI·인피닉 주목
인공지능(AI) 발전에 필수적인 데이터를 확보할 수 있는 수단으로 합성 데이터가 주목받고 있다. 합성 데이터는 AI가 실제 데이터를 모방해 만든 가상 데이터다.

비전 AI 기업 슈퍼브에이아이는 26일 자사 플랫폼에 학습 데이터 생성 기능을 구축했다. 고객사가 소량의 데이터를 추가로 학습시키면 즉시 고품질 학습 데이터를 생성할 수 있다.

예컨대 제조 공장에서 화재 위험 상황을 감지하는 AI 모델을 개발하려면 실제 불이 난 상황의 이미지나 영상을 학습해야 한다. 하지만 자주 일어나지 않는 특수 상황이라 데이터 확보가 어렵다. 이럴 때 합성 데이터를 활용한다. 실제 데이터에 일부 조건을 바꾸거나 AI로 새롭게 만드는 방식이다. 생성형 AI 기술이 발전하면서 합성 데이터 수준도 높아졌다.

자율주행, 국방 AI 분야에서도 합성 데이터는 필수다. 실제 교통사고나 전쟁 데이터를 얻기 어렵기 때문이다. 젠젠에이아이는 맑은 날씨와 비 오는 날, 안개 낀 날, 동물 데이터 등 이미지를 생성해 자동차 제조사와 부품 공급사에 제공하고 있다. 또 다른 스타트업 인피닉은 국방 합성 데이터를 만들기 위한 ‘전장 환경 제너레이터’를 별도로 개발했다. 큐빅은 생성된 합성 데이터를 거래 플랫폼을 통해 유통할 수 있도록 했다.해외에선 합성 데이터 스타트업에 대한 투자가 활발하다. 지난 5월 스케일AI가 10억달러(약 1조4000억원) 규모의 대규모 투자를 유치한 게 대표적이다. 가트너에 따르면 올해 글로벌 합성 데이터 시장 규모는 261억달러(약 36조원)로 4년 만에 10배 넘게 커졌다.

실제 데이터가 아닌 만큼 AI 모델 품질 저하 문제가 생길 수 있다는 우려의 목소리도 나온다. 이날 파이낸셜타임스(FT)에 따르면 야린 갈 영국 옥스퍼드대 연구팀은 AI 모델에 14세기 영국 교회 탑 건축물을 입력한 후 자체 데이터 생성과 학습을 반복시켰다. 그러자 5세대 AI는 뜬금없이 프랑스어 번역을 제공했고 9세대 AI는 연관이 없는 토끼 얘기를 했다. AI가 생성한 잘못된 데이터가 학습 자료로 활용되는 과정이 반복되면서 오류가 증폭된 것이다.

고은이 기자 koko@hankyung.com