데이터 부정확성이 AI 오류 부른다
입력
수정
윤호정 KT 경제경영연구소 선임연구원멀게만 느껴지던 인공지능(AI) 기술은 가상과 현실을 넘나들며 우리 생활 곳곳에 점차 스며들고 있다. 상담사의 업무 부담을 줄여주는 챗봇, 음악 큐레이션 서비스, 물류 시스템의 배송 알고리즘 등 AI의 발전은 우리의 일상생활 전반에 편리함을 제공해준다.
반면, 포털 사이트에서 간단한 단어 하나만 검색해도 개인 SNS에는 관련 광고들이 지속적으로 노출된다. 단순 검색어를 그대로 반영한 이러한 광고들은 사용자의 입장에서는 사생활을 감시당하는 듯한 부정적 느낌을 받을 수도 있다.
이처럼 일상생활 전반에 깊숙이 들어온 AI는 의사결정을 돕는 도구로서 다양한 영역에 사용되며 도움을 주고 있으나, 데이터의 불완전성과 편향된 알고리즘 등으로 크고 작은 사회적, 윤리적 문제 또한 발생시키고 있다.
스캐터랩의 챗봇 ‘이루다’는 자연스러운 채팅대화를 구현하기 위해 앱 사용자들이 실제로 주고받은 말뭉치를 학습했으나 장애인, 여성, 성소수자를 차별하는 표현 및 개인정보 추정이 가능한 데이터를 걸러내지 못했으며, 이는 소수자를 차별한다는 사회적 비판과 함께 곧 서비스의 빠른 종료로 이어졌다.
최근 많은 기업들이 Digital Transformation 추세에 맞추어 AI 의 도입을 통해 차별적 경쟁력 확보를 노리고 있다. 특히 AI를 활용한 개인화 상품 추천 서비스가 강세이다. 고객의 선호도를 알 수 있는 충분한 데이터가 부족해도 해당 고객과 비슷한 속성을 가지는 고객군의 선호도를 분석한 뒤 취향을 유추하여 제품을 추천한다. 이러한 추천 방법은 추가 구매를 유도한다. 패션계의 넷플릭스라 불리는 스티치 픽스(Stitch Fix)는 이러한 추천 알고리즘과 전문 스타일리스트의 의견을 조합해 고객의 사이즈, 예산 및 스타일에 맞는 제품을 골라 배송해주는 서비스로 큰 성공을 거두었다. 성공의 가장 큰 요인으로 데이터 과학을 꼽을 만큼 AI 데이터 분석을 통한 매칭 정확도와 효율성 향상을 매우 중요하게 여기고 있다. 이를 위해 개별고객의 세분화된 선호 데이터를 수집하고 구매 여정의 모든 과정에서 지속적으로 의견을 받아 AI 데이터 분석 시스템을 학습, 발전시키고 있다. 개별 분석 결과를 비슷한 성향을 지닌 다른 고객에게도 추천 알고리즘으로 적용했다.
AI를 이용한 구매 예측 모형은, 해당 상품의 상품속성들과 고객의 고객속성들을 사용하여 구매가능성을 예측하는 모형이다. 그 외 다양한 환경변수를 추가로 설정하는 경우도 있다. 이러한 예측 모형의 고객속성에는 고객의 나이, 성별 등이 사용되지만, 결과물이 고객의 속성과 관련된 가치 판단 등으로 이어지지 않기 때문에 사회적인 이슈로 부각되지는 않는다.
AI를 적용하기 위해 수집되는 데이터는 매우 다양하다. 결국 수집된 데이터를 활용하는 목적에 따라 AI가 금지되기도 하고 엄격한 절차를 통해 통제 받기도 한다. 앞서 예를 든 것처럼 객체에 대한 속성을 분석하여 객체에 대한 고객의 취향을 도출하는 작업은 허용된다. 그러나 고객 자신의 속성을 분석하여 고객에 대한 가치판단을 도출하는 작업은 민감한 프라이버시를 침해할 수 있기 때문에 원칙적으로 금지되고, 허용되더라도 고객에게 상세한 동의를 받는 동시에 윤리적인 고려도 병행해야 할 것이다.
특히, 기능적인 활용과 객체 분석을 통한 취향을 파악하는 것은 가능하지만 인간 자체를 분석 대상으로 하거나 인간에 대한 가치판단을 하는 것도 금지된다. EU의 인공지능법도 생체 정보 등을 개인의 프라이버시와 인권침해 우려가 있는 용도로 사용하는 것을 ‘Unacceptable risk’로 정의해 금지하고 있으며, 안전과 인권에 큰 영향을 주는 AI를 고위험으로 정의해 엄격한 절차를 요구하고 있다.
따라서, AI 알고리즘의 결과물의 성격에 따라 처리할 데이터에 기울이는 정성도 달라져야 한다. AI 분야의 세계적 권위자인 앤드류 응 교수 또한 그의 저서 ‘Machine Learning Yearning’에서 AI의 오류와 편향의 6~30%는 잘못 라벨링된 데이터의 부정확성 때문에 발생할 수 있다고 지적했다. 사물에 대한 오류보다 사람에 대한 오류가 소비자에게 더 큰 손해를 야기할 수 있기 때문에 AI를 이용한 서비스의 개발 및 판매 전 과정에서 더 큰 정성을 기울여야 하며, 특히 정확성에 가장 중요한 영향을 주는 데이터 수집과 라벨링에 더욱 큰 정성을 기울여야 할 것이다.