AI시대 뜨는 '데이터 라벨링'

"AI 학습용 데이터 구축하라"
디에스랩글로벌·슈퍼브에이아이 등 기술개발
인공지능(AI)이 고도화되기 위해선 반복 학습을 위한 데이터가 필요하다. 데이터를 수집하고 가공해 AI가 배울 수 있도록 정제하는 과정은 그리 간단치 않다. 날 것의 데이터는 AI가 이해할 수 없기에 벌어지는 현상이다.

데이터 라벨링의 중요성이 급부상하고 있다. AI 기술 기업들이 나서 데이터 라벨링 종사자들의 전문성을 키워주거나, 자동화 플랫폼을 만드는 식으로 산업 육성에 뛰어들고 있다. 올 들어 음성인식 AI, 이미지 센싱 등 기술 상용화 물결이 이어진 결과다.

‘데이터 라벨러’ 키워내는 기업들

AI 학습 데이터 기업 크라우드웍스는 지난 3일 테스트웍스와 양해각서(MOU)를 체결했다. 학습용 데이터를 가공하는 데이터 라벨러 육성과 취업 연계 분야에서 상호 협력하기로 했다.

두 회사는 비대면 시대 새로운 플랫폼 노동자로 떠오른 데이터 라벨러를 전문적으로 키워내기로 했다. 업계에서 추산하는 관련 노동자는 국내에만 25만 명에 이르지만, 이들 모두 이렇다 할 교육은 받지 못하고 있는 상황이다. 크라우드웍스는 테스트웍스와 전문 커리큘럼 설계 및 학습 콘텐츠 제작을 공동 수행하기로 했다.박민우 크라우드웍스 대표는 “데이터 라벨러는 국내 AI 산업 발전의 핵심 인프라인 양질의 데이터를 생산하는 숨은 주역이자 플랫폼 노동시장 활성화의 주인공”이라며 “데이터 라벨러가 새로운 직업군으로 자리매김할 수 있도록 노력할 계획”이라고 말했다.

데이터 정제도 ‘자동화’가 대세

사람의 노동력에서 벗어나 데이터 라벨링의 자동화를 꾀하는 기업들도 등장하고 있다. 데이터 가공의 정확도와 편의성을 높이기 위해서다.

SK텔레콤 출신 연구원들이 주축이 된 슈퍼브에이아이는 데이터 플랫폼 전문 기업이다. 올해 초 에이티넘인베스트먼트, 스톤브릿지벤처스, 프리미어파트너스 등 주요 기관투자가로부터 110억원의 시리즈A 투자를 유치해 주목받았다.최근 이 회사는 데이터 라벨링 작업을 자동화하는 기술을 개발했다. 자사 AI 머신러닝 데이터 플랫폼 스위트에 ‘커스텀 오토라벨링’ 기능을 도입했다. AI 관련 지식이 부족해도 누구나 데이터를 가공할 수 있는 것이 특징이다. 플랫폼 내부에서 제품이나 물체의 데이터 정제 작업을 자동으로 처리해준다. 수천 장의 적은 데이터만 학습시켜도 곧바로 사용이 가능하다고 업체 측은 설명했다.

AI 스타트업 디에스랩글로벌 역시 지난달 라벨링 자동화 툴인 라벨링 AI를 출시했다. 자사의 AI 자동화 솔루션 클릭 AI의 기능을 고도화한 것이다. 이 회사 관계자는 “10만 개의 데이터 라벨링 작업을 수행한다고 가정하면 데이터 라벨러는 최초 100개만 손수 정제하면 되고 나머지 9만9900개의 가공은 내재된 툴이 자동으로 한다”고 말했다.

데이터 라벨링 기업의 움직임은 더 활발해질 전망이다. 과학기술정보통신부가 지난해부터 추진 중인 디지털 뉴딜 사업에서 AI 학습용 데이터 관련 사업이 핵심이기 때문이다. ‘데이터 댐’ 사업이 대표적이다. 과기정통부는 지난해 1458종의 데이터를 개방한 데 이어 올해 1320억원을 투입해 중소기업·소상공인을 위한 데이터를 제공하기로 했다. 송경희 과기정통부 인공지능기반정책관은 “적재적소에 데이터를 공급하고 가공 및 결합을 지원하는 혁신 사례를 만들어갈 예정”이라고 밝혔다.

이시은 기자 see@hankyung.com