AI 엔지니어와 사진사 20여명이 만든 AI 사진합성 플랫폼 '제너레이티드 포토스'가 제공하는 AI 인물들의 사진. 모두 가공인물의 모습이다. 그래픽 제너레이티드 포토스.
AI 엔지니어와 사진사 20여명이 만든 AI 사진합성 플랫폼 '제너레이티드 포토스'가 제공하는 AI 인물들의 사진. 모두 가공인물의 모습이다. 그래픽 제너레이티드 포토스.
‘당신의 얼굴 사진 70장을 제출하면 40만원을 지급합니다. 성별무관. 학력무관. 방문하지 않고 참여 가능.’

최근 구인·구직 플랫폼에 올라온 독특한 ‘알바’ 구인글입니다. 본인 사진을 연령대 구간별로 나눠서 총 70장 보내면 돈을 준다고 합니다. 사진 제출 말고는 딱히 요구하는 활동도 없습니다. 무슨 일이길래 보상까지 걸고 불특정 인물의 사진을 확보하려는 걸까요.

“AI 학습용 데이터를 구합니다”

공고를 한 문장으로 요약하면 수상쩍어 보일 수도 있지만, 실은 정부와 국내 유망 스타트업들이 손잡고 진행 중인 인공지능(AI) 프로젝트의 일환입니다. 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2022년 AI 학습용 데이터 구축 사업’입니다. 사업엔 AI 이미지 처리 기업인 딥핑소스와 알체라가 참여합니다.

이 사업은 한국 '데이터 댐'을 만드는 게 핵심입니다. 댐으로 대규모 수자원을 확보하고 전력을 생산하는 것처럼, AI가 학습할 수 있는 데이터를 막대한 규모로 모으고 활용해 부가가치를 끌어낸다는 구상입니다. 인간처럼 스스로 인지하고 이해하는 AI를 제대로 구축해 활용하기 위해선 학습용 데이터 확보가 필수이기 때문입니다.

AI는 많은 데이터를 반복 학습하는 과정에서 특징이나 속성 패턴을 추출해 익힙니다. 데이터 분석·감지·예측을 할 수 있는 게 모두 대규모 데이터 학습 덕분입니다.

10년 전 구글이 공개한 고양이 인식 실험이 대규모 데이터 학습의 대표적인 선례인데요. 구글은 당시 AI 딥러닝 체계를 사람 두뇌의 신경망과 비슷하게 구성한 뒤 사흘 동안 무작위로 선정된 유튜브 썸네일(동영상 소개용 사진) 1000만개를 보여줬습니다.
구글이 2012년 공개한 AI프로젝트에 쓰인 고양이 이미지 데이터 중 일부.  사진 구글
구글이 2012년 공개한 AI프로젝트에 쓰인 고양이 이미지 데이터 중 일부. 사진 구글
이 과정에서 AI가 고양이 사진을 인식하기 시작했습니다. '고양이는 이렇게 생긴 것이다'라는 기본 정보를 사람이 입력하지 않았는데도 AI가 동영상 썸네일과 영상 제목을 대량으로 익히면서 '이렇게 생긴 게 고양이라는 것이구나'하고 알게 됐다는 겁니다.

노화 예측 모델용…'지나친 성형·시술은 X' 제한도

정부와 스타트업들이 사진 확보에 나선 것도 같은 이유에서입니다. 노화 예측 AI 개발에 사용할 데이터를 모으려는 겁니다.

동일인의 연령대별 사진 수십 장을 모아 학습하면 AI가 시간 흐름에 따른 외모 변화를 익힐 수 있습니다. 데이터 규모가 늘어날수록 AI가 사람의 연령대별 특징을 보다 정확히 알게 됩니다. 이를 통해 AI 영상·이미지 인식 기술을 고도화한다는 구상입니다.

이 때문에 사진 자료에 대한 일부 제한도 걸었습니다. 유의미한 데이터를 확보하기 위해서인데요. 성형이나 시술을 받아 얼굴이 과거에 비해 너무 많이 달라진 이들은 참여할 수 없는 게 그런 예입니다. 시간의 흐름에 따라 사진에 '노화 정보'가 충분히 나타나야 하는데, 세월이 아닌 이유로 얼굴이 달라지면 AI의 학습에 지장이 있기 때문이라고 합니다.
딥핑소스의 에이징 데이터 프로젝트 참여자 공고 가이드라인 중 일부.  그래픽 딥핑소스
딥핑소스의 에이징 데이터 프로젝트 참여자 공고 가이드라인 중 일부. 그래픽 딥핑소스
같은 이유로 사진상 얼굴이 가려져 있으면 안 되고, 안면 이미지가 최소 크기(2cm*2cm) 이상이어야 한다는 제한도 있습니다.

이렇게 모은 데이터는 AI 연구 개발에 계속 쓰이게 됩니다. 정부가 구축해 운영 중인 AI 인프라 통합 플랫폼 'AI허브'를 통해서입니다. AI 연구 개발 목적으로 인가받은 기관·개인이 다운로드해 데이터를 쓸 수 있습니다.

여러 조건이 붙었지만 젊은 층에선 참여도가 상당해 보입니다. 딥핑소스가 올린 참여자 구인글의 경우엔 20~35세 남녀 모집이 모두 마감됐습니다.

개인정보 보호와 기술 고도화 사이

정부는 2025년까지 음성과 이미지 등 AI 학습용 데이터 1300여 종을 확보하는 게 목표입니다. 아직 AI허브에선 한국어 데이터 93종, 영상이미지 데이터 78종, 헬스케어 데이터 67종 등 380여종 데이터만 제공하고 있습니다. AI 모델을 구축할 수 있을 정도로 대규모 데이터를 확보하는 게 쉽지 않은 일이기 때문입니다.

이는 한국만의 고민이 아닙니다. 미국 일본 독일 등 여러 기술 선진국들도 비슷합니다. 특히 사람의 이미지나 건강 정보 관련 데이터에 대해선 더더욱 그렇습니다. 개인의 사적 정보에 대해선 어느 정부나 기업도 함부로 데이터를 무차별 확보할 수 없기 때문입니다. 데이터가 있더라도 개인정보 보호법, 저작권법 등을 고려해야 해 AI 학습에 활용하기 까다로운 경우도 많습니다.

막대한 데이터를 빠르게 모으며 AI 기술을 발전시키고 있는 국가도 있습니다. 중국입니다. 중국 정부는 AI 기술 확보를 위해 기업들을 적극 지원하고 있습니다. 공공장소 CCTV 데이터까지 기업이 접근할 수 있게 허용했을 정도입니다.
2018년 10월 중국 베이징에서 열린 AI 개발자 대회에서 나온 안면 인식 프로그램이 시연 장면. 사진 로이터
2018년 10월 중국 베이징에서 열린 AI 개발자 대회에서 나온 안면 인식 프로그램이 시연 장면. 사진 로이터
중국은 전국에 방범용 카메라를 6억대 이상 설치·운영 중인 것으로 알려졌는데요. 이를 기반으로 모을 수 있는 데이터양은 그야말로 엄청날 것으로 예상됩니다. 이를 통해 고도화한 기술은 또 정부가 갖다 활용합니다. 신원 확인, 대출 모니터링, 범죄자 감시 등 영역에서 AI 얼굴 인식 기술을 쓰고 있습니다.

이같은 이유로 중국 기업들은 세계 AI 안면인식 기술 선두를 달리고 있습니다. 미국국립표준기술연구소(NIST)가 주관하는 AI 안면인식 기술 대회 FRVT 결과가 이를 잘 보여줍니다. 동일인 사진을 놓고 얼굴 고유의 특성을 1대1로 대조해 파악하는 1:1 부문, 사진 여러 개 사이에서 같은 인물을 인식하는 1:N 부문 모두 각각 중국 기업들이 1~2위를 나눠 가졌습니다. 1:1부문은 중국 클라우드워크가 1위, 중국 센스타임이 2위였습니다. 1:N 대회는 센스타임이 1위, 클라우드워크가 2위를 했고요.

앞으로 '당신의 데이터를 삽니다'란 구인글을 더 흔히 보게 될 공산이 크다는 것이 AI 기술업계의 중론입니다. AI 기술 확보를 위해선 데이터가 꼭 필요하기 때문입니다.

한 음성합성 AI 스타트업의 대표는 "AI는 모델이 커질수록 데이터의 힘이 중요해진다"며 "같은 자원을 들여야 한다면 알고리즘을 고도화보다 데이터 규모를 늘리는 게 유리하다 보니 데이터 확보를 위한 움직임이 꾸준히 커질 것"이라고 말했습니다. 그는 "향후 개인의 목소리나 영상 등을 모으려는 시도도 나올 것"이라고 덧붙였습니다.

선한결 기자 always@hankyung.com