빅데이터는 '트럼프 당선' 알고 있었다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
'美대선 결과 예측' 우종필 세종대 교수
"유권자 속마음, 여론조사보다 빅데이터가 정확히 파악"
"유권자 속마음, 여론조사보다 빅데이터가 정확히 파악"
[ 김봉구 기자 ] “언론사 여론조사를 제외하면 빅데이터 상으로 어느 곳에서도 클린턴 후보가 당선될 만한 요소를 찾지 못했어요. 빅데이터는 이미 트럼프의 압승을 예고하고 있었습니다.”
도널드 트럼프 공화당 후보의 당선으로 막을 내린 미국 대선 결과를 정확히 예측한 대학 교수가 화제가 됐다.
10일 세종대에 따르면 경영대학 우종필 교수(빅데이터 MBA 주임교수) 연구팀은 빅데이터 분석을 통해 트럼프의 당선뿐 아니라 그가 확보한 선거인단 수까지 오차율 5% 이내에서 맞혔다.
트럼프의 당선은 이변으로 받아들여졌다. 선거기간 내내 뉴욕타임즈, CNN, ABC뉴스 등 미국 유명언론 대부분이 힐러리 클린턴 민주당 후보의 당선을 예상했기 때문. 이번 미국 대선은 거의 모든 조사기관에서 클린턴이 낙승을 거둘 것으로 전망했다. 그러나 결과는 반전이었다.
우 교수는 이달 3일 자신의 홈페이지에 올린 글에서 “각종 여론조사를 배제하고 빅데이터로만 봤을 때 트럼프가 당선되며 확보 선거인단 수는 트럼프 275~285명, 클린턴 253~263명 선일 것”이라고 내다봤다.
특히 앞서 치러진 대선 결과들을 분석해 얻은 알고리즘을 기반으로 예측한 선거인단 숫자의 경우, 실제로 트럼프는 290명을 확보해 비교적 정확하게 예측했다.
우 교수는 여론조사의 근본적 한계를 짚었다. “투표하는 미국 유권자가 1억2000만~1억3000만명 정도라고 했을 때 1000명 내외를 대상으로 한 여론조사는 유권자의 0.00001%를 조사하는 것”이라며 “이런 표본오차가 결국 선거 결과를 잘못 예측하게끔 한다”고 풀이했다.
그는 “빅데이터는 그렇지 않다”고 단언했다. 이어 “하루에도 수십만명의 유권자가 스스로도 모르는 새 자신의 표심을 빅데이터에 쏟아내고 있다”면서 “그래서 저는 빅데이터를 더 신뢰한다”고 말했다.
유권자들이 속마음을 여론조사에서 드러내지 않는 현상도 지적했다. “여론조사는 유권자들의 마음을 제대로 읽어내지 못한다. 특히 윤리적·도덕적 이슈에 대해선 더욱 그렇다”고 꼬집은 우 교수는 “하지만 신기하게도 투표장에 들어선 유권자는 조금이라도 그들에게 유리한 후보를 찍는다”고 강조했다.
우 교수팀이 구글 트렌드 검색률 등을 토대로 작성한 그래프 변화 추이를 보면 클린턴은 검색률에서 1년 내내 트럼프에 뒤졌다. 유권자들의 관심이 떨어진다는 뜻이다. 이는 앞서 브렉시트(영국의 EU 탈퇴)와 2008·2012년 미국 대선에서도 검증된 방법이라는 소개가 뒤따랐다.
검색률에 트럼프의 성추문 스캔들, 클린턴의 이메일 스캔들 등 부정적 이슈도 포함돼 실제 지지율과는 다를 수 있다는 지적에 대해선 “예컨대 ‘vote OOO(누구에게 투표 하겠다)’로 검색하면 부정적 이슈를 걸러내 신뢰도를 높일 수 있다”고 설명했다.
이런 식으로 검색어를 설정한 경우 역시 트럼프가 클린턴을 앞섰고 시간이 흐를수록 격차는 더 벌어졌다.
우 교수는 대선후보 TV 토론에서 ‘클린턴이 승리했다’는 보도도 잘못됐다고 해석했다. 구글이 제공한 1~3차 TV 토론 검색량과 페이스북·트위터·인스타그램 등 SNS(사회관계망서비스) 상에서도 트럼프가 모두 우위를 점했다는 점을 근거로 들었다.
김봉구 한경닷컴 기자 kbk9@hankyung.com
기사제보 및 보도자료 open@hankyung.com
도널드 트럼프 공화당 후보의 당선으로 막을 내린 미국 대선 결과를 정확히 예측한 대학 교수가 화제가 됐다.
10일 세종대에 따르면 경영대학 우종필 교수(빅데이터 MBA 주임교수) 연구팀은 빅데이터 분석을 통해 트럼프의 당선뿐 아니라 그가 확보한 선거인단 수까지 오차율 5% 이내에서 맞혔다.
트럼프의 당선은 이변으로 받아들여졌다. 선거기간 내내 뉴욕타임즈, CNN, ABC뉴스 등 미국 유명언론 대부분이 힐러리 클린턴 민주당 후보의 당선을 예상했기 때문. 이번 미국 대선은 거의 모든 조사기관에서 클린턴이 낙승을 거둘 것으로 전망했다. 그러나 결과는 반전이었다.
우 교수는 이달 3일 자신의 홈페이지에 올린 글에서 “각종 여론조사를 배제하고 빅데이터로만 봤을 때 트럼프가 당선되며 확보 선거인단 수는 트럼프 275~285명, 클린턴 253~263명 선일 것”이라고 내다봤다.
특히 앞서 치러진 대선 결과들을 분석해 얻은 알고리즘을 기반으로 예측한 선거인단 숫자의 경우, 실제로 트럼프는 290명을 확보해 비교적 정확하게 예측했다.
우 교수는 여론조사의 근본적 한계를 짚었다. “투표하는 미국 유권자가 1억2000만~1억3000만명 정도라고 했을 때 1000명 내외를 대상으로 한 여론조사는 유권자의 0.00001%를 조사하는 것”이라며 “이런 표본오차가 결국 선거 결과를 잘못 예측하게끔 한다”고 풀이했다.
그는 “빅데이터는 그렇지 않다”고 단언했다. 이어 “하루에도 수십만명의 유권자가 스스로도 모르는 새 자신의 표심을 빅데이터에 쏟아내고 있다”면서 “그래서 저는 빅데이터를 더 신뢰한다”고 말했다.
유권자들이 속마음을 여론조사에서 드러내지 않는 현상도 지적했다. “여론조사는 유권자들의 마음을 제대로 읽어내지 못한다. 특히 윤리적·도덕적 이슈에 대해선 더욱 그렇다”고 꼬집은 우 교수는 “하지만 신기하게도 투표장에 들어선 유권자는 조금이라도 그들에게 유리한 후보를 찍는다”고 강조했다.
우 교수팀이 구글 트렌드 검색률 등을 토대로 작성한 그래프 변화 추이를 보면 클린턴은 검색률에서 1년 내내 트럼프에 뒤졌다. 유권자들의 관심이 떨어진다는 뜻이다. 이는 앞서 브렉시트(영국의 EU 탈퇴)와 2008·2012년 미국 대선에서도 검증된 방법이라는 소개가 뒤따랐다.
검색률에 트럼프의 성추문 스캔들, 클린턴의 이메일 스캔들 등 부정적 이슈도 포함돼 실제 지지율과는 다를 수 있다는 지적에 대해선 “예컨대 ‘vote OOO(누구에게 투표 하겠다)’로 검색하면 부정적 이슈를 걸러내 신뢰도를 높일 수 있다”고 설명했다.
이런 식으로 검색어를 설정한 경우 역시 트럼프가 클린턴을 앞섰고 시간이 흐를수록 격차는 더 벌어졌다.
우 교수는 대선후보 TV 토론에서 ‘클린턴이 승리했다’는 보도도 잘못됐다고 해석했다. 구글이 제공한 1~3차 TV 토론 검색량과 페이스북·트위터·인스타그램 등 SNS(사회관계망서비스) 상에서도 트럼프가 모두 우위를 점했다는 점을 근거로 들었다.
김봉구 한경닷컴 기자 kbk9@hankyung.com
기사제보 및 보도자료 open@hankyung.com