Getty Images Bank
Getty Images Bank
‘상관관계는 인과관계가 아니다’는 이제 진부한 말이 됐다. 하지만 우리는 두 개의 변수가 함께 움직이는 것을 보면 하나의 변수가 다른 변수의 원인일 것이라고 생각하기 쉽다. 인과관계가 존재하지 않는 우연한 상관관계를 허위상관이라고 한다. 그림은 연도별 미국 국민 1인당 마요네즈 소비량(검은색)의 변화와 미국 북동부에 있는 메인주의 이혼율이 높은 상관관계를 나타내는 것을 보여준다. 물론, 마요네즈를 덜 먹는다고 이혼을 덜하지는 않는다.
[한경 BIZ School] 상관관계 정보로 특정 행위·특성 예측 가능
구글 독감 트렌드(GFT: Google Flu Trends)는 빅데이터의 성공 사례로 곧잘 언급되는 내용이다. 구글은 미국 질병관리본부(CDC)가 공개한 2003년부터 2007년까지의 독감 데이터(독감 증상으로 병원을 방문한 환자의 수)와 같은 시기 구글 사용자가 입력한 검색어와의 상관관계를 분석했다. 과거 독감 데이터와 높은 상관관계를 보이는 사용자의 검색어 45개(고열, 기침 등)를 사용해 질병관리본부보다 2주 빨리 독감 유행을 예측할 수 있는 모형을 개발했다.

여기까지는 잘 알려진 사실이다. 서비스 초기에 정확하던 구글 독감 트렌드 예측은 2011년부터 빗나가기 시작했다. 2012~2013년 독감 시즌 동안은 독감 증상을 보이는 환자 방문 수를 실제보다 두 배나 높게 예측했다. 구글은 결국 GFT 서비스를 종료했다.

구글 독감 트렌드의 예측이 빗나간 데는 여러 원인이 작용했겠지만, 인과관계가 없는 상관관계(허위상관) 검색어를 예측 모형에 사용한 것도 한 이유다. ‘고교 농구(high school basketball)’라는 검색어도 예측 모형에 사용된 걸로 알려졌는데, 미국 고교 농구의 시즌(11월 말부터 다음해 2월 말까지)이 독감 유행 시즌과 일치하기 때문에 발생한 일이다. 독감과는 직접적인 인과관계가 없지만 계절적으로 집중되는 특성을 가진 특정 검색어가 예측 모형에 사용된 것이다. 상관관계를 포함해 모형에서 발견한 패턴을 어떻게 이해하고 해석해야 하는지를 살펴볼 필요가 있다.

상관관계를 어떻게 활용할까

인사 데이터를 분석해서 모형을 만드는 궁극적 이유는 특정 변수(성과·매출·위반 등)에 영향을 미치는 다른 변수(학점 나이 소득 성격 태도 역량 등)를 이해해 현실에 개입하기 위해서다. 오류를 현실과 모형 분석(해석) 사이의 차이라고 정의한다면, 오류는 △분석에 사용된 데이터에서 비롯된 불확실성(부적절하거나 불충분한 데이터)과 △분석 방법에서 비롯된 불확실성(수학적 모형이나 알고리즘의 한계) △세상과 인간에 대한 이해의 부족에서 비롯된 불확실성에서 기인한다.

데이터와 분석 모형에 내재된 불확실성을 불가피한 조건으로 인정했을 때 분석 결과로 얻은 상관관계(선형적 관계나 서로 다른 집단들 간 평균값의 차이 등)를 어떻게 이해하고 활용해야 할까.

직원들의 성과점수를 분석했더니 명문대 출신의 성과점수가 통계적으로 높게 나왔다고 하자. 명문대 출신들이 일을 잘한다고 단정지을 수 있을까. 출신 대학과 성과점수 간 관계가 관찰·측정되지 못한 제삼의 변수 때문일 수도 있지 않을까. 명문대 출신이기 때문에 신입사원 시절부터 성과를 내기 좋은 프로젝트·업무에 배정하고, 그 경험을 통해 출세가도를 달리게 되고, 명문대 출신이기 때문에 명문대 출신 매니저들이 의식적이거나 무의식적으로 더 좋은 평가를 했을 수도 있다. 성과점수와 출신 대학 간 상관관계가 나타난 원인이 후광효과와 정실인사 때문이었다면, 명문대학 출신을 더 많이 뽑는 것은 회사의 근본적인 성과 개선과는 상관이 없다. 기존의 현실을 더욱 공고화하는 일일 뿐이다.

그렇다면 상관관계(패턴)를 어떻게 해석해야 할까. 결론부터 말하면 특정 특성이나 행위를 보인 사람이 많이 모여 있는 집단을 찾는 데 활용할 수 있다. 예를 들어 명문 A대와 비명문 B·C대학이 있는 대학가에 고급 오피스텔을 지었다고 하자. 입주자를 모집하기 위해 광고를 하려고 주변 고급 오피스텔 입주자 데이터를 분석해보니 명문 A대 입주자 비율이 상대적으로 높았다면 전단 역시 명문대에 집중적으로 붙이는 게 효과적이다. 특정 특성·행위를 보인 사람이 밀집해 있는 집단을 단순히 찾고자 할 때는 상관관계 결과를 안심하고 활용할 수 있다.

패턴을 어떻게 해설해야 하나

[한경 BIZ School] 상관관계 정보로 특정 행위·특성 예측 가능
이번에는 고급 오피스텔 건물주가 명문대 학생들은 고급 오피스텔을 선호하고 또 재력도 있다고 가정하고 로비를 통해 비명문 B대학을 명문대학으로 만들었다고 치자. 하지만 공교롭게도 입시제도가 바뀌어 학생을 제비뽑기로 선발하게 됐고, 부모의 재력이 자녀의 명문대 진학에 미치는 영향이 아주 제한적이 됐다. 이런 상황에서는 하나의 변수(명문대 학생 수)를 바꾸어서 다른 변수(고급 오피스텔 입주자수)를 개선하려고 했던 당신의 행위가 부질없게 된다. 인과관계가 없는 상관관계(허위상관)에 기대어 현실에 개입했기 때문이다. ‘명문대학 진학’과 ‘고급 오피스텔 주거’ 두 변수 모두에 영향을 미쳤던 제삼의 변수(교란 요인이라고도 함)인 ‘부모의 재력’이 입시제도가 바뀌어 더 이상 명문대 진학에 영향을 못 미치게 됐고, 결과적으로 ‘명문대학 진학’과 ‘고급 오피스텔 주거’ 변수 간 상관관계도 사라지게 된 것이다.

명문대 출신을 많이 뽑아 회사 성과를 개선하려는 것처럼 하나의 변수(예측변수)값을 바꾸어 다른 변수(종속변수)값을 바꾸고자 하는 경우에는 변수 간 상관관계가 아니라 인과관계가 필요하다. 상관관계는 쉽고 빠르게 발견할 수 있는 반면 인과관계를 확인하는 일은 오랜 관찰이 필요한 어려운 일이다. 그렇다면 상관관계에 대한 정보를 가지고 현실에 개입하고 싶다면 어떻게 해야 할까. 우선, 특정행위를 보이는 사람이 몰려 있는 집단을 찾는 데 사용할 수 있다. 예를 들어 세 개의 변수(사업부:A, 나이:33~37, 성별:남)로 구분되는 15%의 직원이 회사 전체 미사용 휴가 일수의 70%를 차지한다면 해당 조건을 만족하는 직원을 대상으로 보다 타게팅 된 개입을 할 수 있을 것이다.

예측변수 A(부서이동 횟수)를 바꿔서 종속변수 B(퇴사 여부)를 바꾸고자 하는 경우 패턴이 나타난 두 변수 사이(부서 이동 횟수와 퇴사율 간의 관계)에 영향을 미치는 제삼의 변수가 없다고 굳게 믿는다면(그리고 현실적으로 확인할 방법도 없다면) 상관관계 정보에 기대 세상사에 개입해도 좋다. 어차피 우리는 세상에 대한 불확실하고 제한된 정보를 가지고 결정을 내릴 수밖에 없다. 모른다고 아무것도 하지 않거나 해외의 유행을 무작정 좇는 것보단 낫지 않겠는가.

양승준 < 아이디케이스퀘어드 대표 >