[한경 BIZ School] 데이터 분석, '사실'은 있지만 '진실'은 없다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
Let's Master 피플 애널리틱스 (4)
대상 어떻게 나누냐에 따라 서로 다른 결과 나올 가능성
직원 경향 정량화한 데이터 분석
근사치로 표현된 '팩트'만 존재
해석 통해 '진실' 가까워질 수 있어
양승준 < 아이디케이스퀘어드 대표 >
대상 어떻게 나누냐에 따라 서로 다른 결과 나올 가능성
직원 경향 정량화한 데이터 분석
근사치로 표현된 '팩트'만 존재
해석 통해 '진실' 가까워질 수 있어
양승준 < 아이디케이스퀘어드 대표 >
미국 심리학자 폴 밀은 그의 저서 《임상적 예측과 통계적 예측의 비교(Clinical versus Statistical Prediction)》에서 ‘부러진 다리 사례’를 소개한 바 있다.
내용을 간략히 옮겨보면 이렇다. 과거 데이터에 따르면 김 교수는 매주 화요일 저녁 동네 극장에 갔다. 그런데 김 교수가 지난 주말 저녁에 다리가 부러져 깁스를 하게 됐다. 해당 사실을 모르는(알 수 없는) 통계 모델은 통계적 추론을 통해 이번주 화요일 저녁에도 김 교수가 영화를 보러 갈 것이라고 높은 확률로 예측할 것이다. 반면 동네 사정을 꿰고 있는 극장 매니저 최씨는 김 교수가 당분간 극장 출입을 못할 거라는 사실을 잘 알고 있을 것이다.
최씨처럼 기계(알고리즘)가 모르는 ‘유용하고 적절한 사실’을 아는 경우 기계의 예측을 무시해도 좋다. 중요한 것은 나는 알고 기계는 모르는 사실이 예측하려고 하는 행위와 관계가 있는지다. 면접관이 면접을 통해 지원자 역시 나랑 같은 야구팀의 골수팬이라는 사실을 알게 됐다고 하자. 해당 사실은 예측하려는 행위(우리 회사에서 일을 행복하게 오래 잘할지 여부)와 관계가 없기 때문에 무시해야 하는 정보다. 이번 칼럼에서는 피플 애널리틱스의 맥락에서 데이터 분석을 수행할 때 활용할 수 있는 데이터 분석 기술과 각각의 한계점을 간단히 살펴보자. 분석 기술의 장점과 한계를 이해한다면 나의 주관적 경험과 지식을 분석 알고리즘이 발견한 패턴과 조화해 더 좋은 의사결정을 내릴 수 있을 것이다.
# 기술 분석
데이터에 대한 요약(총합, 평균, 최댓값, 비율 등)이 필요한 경우 기술분석(여기서 기술은 묘사한다는 의미)을 한다. 복잡한 분석 기법이 반드시 좋은 것은 아니다. 만약 분석 목적이 서로 다른 집단 사이에 차이가 존재하는지 확인하는 것이라면 기술 분석이면 충분하다.
세일즈포스라는 글로벌 고객관리(CRM) 솔루션을 판매하는 회사는 영업직원을 채용할 때 기업용 소프트웨어를 판매해본 적이 있는 사람들로 채용 풀을 제한해왔다. 하지만 피플 애널리틱스 팀에서 가장 뛰어난 영업사원 100명의 데이터를 분석해 입사 전 기업용 소프트웨어 판매 경험이 영업사원의 성과와 관계가 없다는 걸 확인했고, 이후 다채로운 경력의 후보자를 대상으로 채용 풀을 확장할 수 있었다. 기존에 통용되는 믿음·가설(소프트웨어 판매 경험은 영업사원의 업무 성과와 관련이 있다)이 있었고, 소프트웨어 판매 경험이 있는 우수 영업사원과 그렇지 않은 우수 영업사원의 비율을 비교하는 것만으로 해당 믿음·가설이 객관적 근거가 없음을 입증한 것이다.
집단 사이의 평균값을 비교하는 기술 통계 방식의 장점이 쉽고 직관적인 것이라면 단점은 분석 대상을 어떻게 나눠서 평균값을 비교하느냐에 따라 서로 다른 결과가 나올 수 있다는 것이다. 심슨의 역설이라고도 불리는 이 문제를 직원 퇴사율을 예로 살펴보면 아래 그림과 같다.[그림]
퇴사율을 사업장 단위(하나의 차원)로 비교했을 때는 B사업장이 높았지만, 사업장별 퇴사율을 남녀로 한 번 더 쪼개서(두 개의 차원 사용) 비교한 경우는 남녀 모두 A사업장의 퇴사율이 높게 나왔다(B사업장에 퇴사율이 상대적으로 높은 여자 비율이 높기 때문에 나타난 현상). 이처럼 낮은 차원에서 주요 지표를 비교하면 복잡다단한 현실이 뭉뚱그려진 수치로 제시될 수 있다는 점을 유념하자.
# 예측 분석
인사 영역에서 예측 분석이 어려운 이유는 우리가 이해·예측하고자 하는 행위와 관련된 정보의 많은 부분을 데이터(예측·설명변수)로 담아내기 힘들기 때문이다. 특히 팀 단위로 움직이는 지식 노동자 성과는 개인의 노력·재능·경험 못지않게 경쟁·경제 상황, 동료·부서장과의 관계 등 개인의 통제 밖에 있는 우발적이고 정량화하기 힘든 요인들의 영향으로 정확한 예측모형을 수립하기 어렵다.
온라인에서 소비자가 구매할 확률이 높은 상품을 추천하는 경우와 같이 마케팅 영역에서는 모형의 예측력이 설명력보다 중요하다. 이전과 비교해 고객 구매율이 올랐다면 모형의 투명성과 설명력은 크게 중요하지 않다. 인사는 예측력보다 설명력이 우선시돼야 한다. 인사 데이터 분석은 최신 인공지능 알고리즘으로 모형의 예측 정확도를 90%까지 끌어올렸다 하더라도 모형의 작동원리에 대해 투명하고 논리적인 설명이 제공되지 않는다면 현실을 더 객관적으로 이해하고 개선해나갈 수 없다. 인사 데이터를 분석할 때는 예측력보다 설명력이 좋은 투명한 알고리즘(회귀분석, 의사결정 트리)부터 사용하는 것이 바람직하다.
우리가 데이터를 분석하는 것은 희미하지만 분명히 존재하는 느낌, 말로 설명하기 힘들었던 직원들의 경향성을 정량적으로 설명하고 주장하기 위해서다. 모두가 공감하고 수긍할 수 있는 진단이 있은 뒤에 처방도 가능하다. 작동방식이 불투명한 모형(블랙박스 모형)을 사용하는 것은 모형의 적용이 가져올 직원들에 대한 잠재적 차별에 대해 투명하고 객관적 근거를 제시하지 못한다는 점에서 법률적 위험이 따를 수도 있다.
데이터 분석 세계에는 근사치로 표현되는 사실만 있지 참값(진실)은 존재하지 않는다. 하지만 사실이 없다면 세상에 대한 해석은 애초에 가능하지 않다. 익숙한 것을 참된 것이라고 믿고 싶어하는 우리 뇌에 분석을 통해 발견한 불편할 수도 있는 사실을 지속적으로 노출시켜 직원들을 있는 그대로 바라보려는 노력이 필요하다.
양승준 < 아이디케이스퀘어드 대표 >
내용을 간략히 옮겨보면 이렇다. 과거 데이터에 따르면 김 교수는 매주 화요일 저녁 동네 극장에 갔다. 그런데 김 교수가 지난 주말 저녁에 다리가 부러져 깁스를 하게 됐다. 해당 사실을 모르는(알 수 없는) 통계 모델은 통계적 추론을 통해 이번주 화요일 저녁에도 김 교수가 영화를 보러 갈 것이라고 높은 확률로 예측할 것이다. 반면 동네 사정을 꿰고 있는 극장 매니저 최씨는 김 교수가 당분간 극장 출입을 못할 거라는 사실을 잘 알고 있을 것이다.
최씨처럼 기계(알고리즘)가 모르는 ‘유용하고 적절한 사실’을 아는 경우 기계의 예측을 무시해도 좋다. 중요한 것은 나는 알고 기계는 모르는 사실이 예측하려고 하는 행위와 관계가 있는지다. 면접관이 면접을 통해 지원자 역시 나랑 같은 야구팀의 골수팬이라는 사실을 알게 됐다고 하자. 해당 사실은 예측하려는 행위(우리 회사에서 일을 행복하게 오래 잘할지 여부)와 관계가 없기 때문에 무시해야 하는 정보다. 이번 칼럼에서는 피플 애널리틱스의 맥락에서 데이터 분석을 수행할 때 활용할 수 있는 데이터 분석 기술과 각각의 한계점을 간단히 살펴보자. 분석 기술의 장점과 한계를 이해한다면 나의 주관적 경험과 지식을 분석 알고리즘이 발견한 패턴과 조화해 더 좋은 의사결정을 내릴 수 있을 것이다.
# 기술 분석
데이터에 대한 요약(총합, 평균, 최댓값, 비율 등)이 필요한 경우 기술분석(여기서 기술은 묘사한다는 의미)을 한다. 복잡한 분석 기법이 반드시 좋은 것은 아니다. 만약 분석 목적이 서로 다른 집단 사이에 차이가 존재하는지 확인하는 것이라면 기술 분석이면 충분하다.
세일즈포스라는 글로벌 고객관리(CRM) 솔루션을 판매하는 회사는 영업직원을 채용할 때 기업용 소프트웨어를 판매해본 적이 있는 사람들로 채용 풀을 제한해왔다. 하지만 피플 애널리틱스 팀에서 가장 뛰어난 영업사원 100명의 데이터를 분석해 입사 전 기업용 소프트웨어 판매 경험이 영업사원의 성과와 관계가 없다는 걸 확인했고, 이후 다채로운 경력의 후보자를 대상으로 채용 풀을 확장할 수 있었다. 기존에 통용되는 믿음·가설(소프트웨어 판매 경험은 영업사원의 업무 성과와 관련이 있다)이 있었고, 소프트웨어 판매 경험이 있는 우수 영업사원과 그렇지 않은 우수 영업사원의 비율을 비교하는 것만으로 해당 믿음·가설이 객관적 근거가 없음을 입증한 것이다.
집단 사이의 평균값을 비교하는 기술 통계 방식의 장점이 쉽고 직관적인 것이라면 단점은 분석 대상을 어떻게 나눠서 평균값을 비교하느냐에 따라 서로 다른 결과가 나올 수 있다는 것이다. 심슨의 역설이라고도 불리는 이 문제를 직원 퇴사율을 예로 살펴보면 아래 그림과 같다.[그림]
퇴사율을 사업장 단위(하나의 차원)로 비교했을 때는 B사업장이 높았지만, 사업장별 퇴사율을 남녀로 한 번 더 쪼개서(두 개의 차원 사용) 비교한 경우는 남녀 모두 A사업장의 퇴사율이 높게 나왔다(B사업장에 퇴사율이 상대적으로 높은 여자 비율이 높기 때문에 나타난 현상). 이처럼 낮은 차원에서 주요 지표를 비교하면 복잡다단한 현실이 뭉뚱그려진 수치로 제시될 수 있다는 점을 유념하자.
# 예측 분석
인사 영역에서 예측 분석이 어려운 이유는 우리가 이해·예측하고자 하는 행위와 관련된 정보의 많은 부분을 데이터(예측·설명변수)로 담아내기 힘들기 때문이다. 특히 팀 단위로 움직이는 지식 노동자 성과는 개인의 노력·재능·경험 못지않게 경쟁·경제 상황, 동료·부서장과의 관계 등 개인의 통제 밖에 있는 우발적이고 정량화하기 힘든 요인들의 영향으로 정확한 예측모형을 수립하기 어렵다.
온라인에서 소비자가 구매할 확률이 높은 상품을 추천하는 경우와 같이 마케팅 영역에서는 모형의 예측력이 설명력보다 중요하다. 이전과 비교해 고객 구매율이 올랐다면 모형의 투명성과 설명력은 크게 중요하지 않다. 인사는 예측력보다 설명력이 우선시돼야 한다. 인사 데이터 분석은 최신 인공지능 알고리즘으로 모형의 예측 정확도를 90%까지 끌어올렸다 하더라도 모형의 작동원리에 대해 투명하고 논리적인 설명이 제공되지 않는다면 현실을 더 객관적으로 이해하고 개선해나갈 수 없다. 인사 데이터를 분석할 때는 예측력보다 설명력이 좋은 투명한 알고리즘(회귀분석, 의사결정 트리)부터 사용하는 것이 바람직하다.
우리가 데이터를 분석하는 것은 희미하지만 분명히 존재하는 느낌, 말로 설명하기 힘들었던 직원들의 경향성을 정량적으로 설명하고 주장하기 위해서다. 모두가 공감하고 수긍할 수 있는 진단이 있은 뒤에 처방도 가능하다. 작동방식이 불투명한 모형(블랙박스 모형)을 사용하는 것은 모형의 적용이 가져올 직원들에 대한 잠재적 차별에 대해 투명하고 객관적 근거를 제시하지 못한다는 점에서 법률적 위험이 따를 수도 있다.
데이터 분석 세계에는 근사치로 표현되는 사실만 있지 참값(진실)은 존재하지 않는다. 하지만 사실이 없다면 세상에 대한 해석은 애초에 가능하지 않다. 익숙한 것을 참된 것이라고 믿고 싶어하는 우리 뇌에 분석을 통해 발견한 불편할 수도 있는 사실을 지속적으로 노출시켜 직원들을 있는 그대로 바라보려는 노력이 필요하다.
양승준 < 아이디케이스퀘어드 대표 >