“마케터의 직감, 데이터로 확인하세요”

한경 CMO Insight 「한국의 마케터」

나성호 헬로데이터사이언스 대표
나성호 헬로데이터사이언스 대표
“마케터의 직감을 데이터로 확인할 수 있어야 합니다”

나성호 헬로데이터사이언스 대표는 “오랜 기간 마케팅 업무를 수행하면 경험을 통해 통찰력을 얻을 수 있지만, 데이터를 읽고 올바로 해석할 수 있는 데이터 리터러시(문해력)이 필요하다”고 주장했다.나 대표는 2002년 서울대 경영학과 석사(데이터베이스 마케팅 전공)를 졸업하고, 삼성화재를 시작으로 현대캐피탈, 하나SK카드, 하나금융경영연구소 등 다양한 금융회사에서 17년 간 CRM 관련 업무를 수행했다.

직장에서 데이터 분석가로 일을 하면서 부족하다고 느꼈던 깊이를 채우고자 2018년 한양대 경영학과 박사 과정(MIS 전공)에 진학했다.

2019년 9월 데이터 분석 교육 사업을 본격적으로 하기 위해 헬로데이터사이언스를 설립했다. R과 Python 기초 프로그래밍, 통계 분석 및 머신러닝을 강의하고 있다.

Q: 마케터가 데이터 분석 알아야 하는 이유는

A: 데이터 분석 자체만으로는 중요하지 않다. 데이터 분석 결과를 현업에 적용해 성과를 창출할 수 있어야 데이터 분석이 의미를 갖는다.

기업에서 수익을 창출하는 역할을 마케터가 담당하고 있는데, 마케터가 데이터 분석을 직접 수행할 수도 있고 그렇지 않을 수도 있겠지만, 마케터에게 다음과 같은 3가지가 반드시 필요하다.먼저 자신이 수행하고 있는 비즈니스 분야에 대한 지식과 통찰력이 필요하다. 비즈니스 도메인 지식이 있어야 현재 필요한 데이터 분석 주제를 선정할 수 있기 때문이다.

아울러 마케터는 의사소통 능력이 뛰어나야 한다. 소위 데이터 과학자로 일컬어지는 데이터 분석 전문가들에게는 비즈니스 도메인 지식이 부족할 수 있다. 따라서 데이터 분석 전문가들에게 데이터 분석 주제와 관련된 요구사항을 제대로 전달할 수 있어야 성공적인 데이터 분석 결과를 기대할 수 있다.

그런데 데이터 분석 전문가와 의사소통을 향상시키려면 데이터 과학 분야에 대한 전반적인 지식이 필요하다. 마케터가 프로그래밍과 데이터 과학을 공부해야 하는 이유다. 마지막으로 데이터를 읽고 올바로 해석할 수 있는 데이터 리터러시가 필요하다.

Q: 웹크롤링으로 가능한 마케팅은

A: 웹크롤링은 데이터를 수집하는 방법의 하나다. 기업 내부에서 생성되는 정형 데이터와 다르게 기업 외부, 주로 웹사이트에 노출되는 텍스트 데이터를 수집하려면 웹크롤러라는 프로그램을 작성해야 한다.

웹크롤링을 활용한 마케팅 분야로는 온라인 쇼핑몰 가격 정보와 고객 리뷰를 수집하는 것을 들 수 있다. 온라인 쇼핑몰에서 관심 있는 상품명으로 검색한 결과에서 경쟁사의 가격 정보를 빠르게 수집할 수 있다면 자사 제품의 가격을 책정하는데 기준으로 활용할 수 있다.

아울러 상품마다 고객의 리뷰를 수집하고 주로 언급되는 단어, 그리고 키워드와 동시 출현 비중이 높은 단어를 파악함으로써 해당 상품에 대한 다수 고객의 공통된 인식을 파악할 수 있다.

과거에는 설문조사나 고객 패널 제도를 통해 고객의 의견을 청취했지만 웹크롤링으로 다수 고객의 의견을 가감없이 수집할 수 있게 되었다. 물론 웹크롤링으로 수집한 텍스트 데이터는 전처리 과정에서 많은 노력이 필요하다.

Q: 전처리는 어떻게

A: 웹크롤링으로 수집한 텍스트 데이터는 분석할 수 있는 형태로 전처리해야 하는데, 이때 정규표현식을 배우는 것이 좋다. 정규표현식은 문자열의 패턴을 표현하는 언어인데, 정규표현식을 활용하면 지난한 전처리 과정을 간단하게 해결할 수 있다.

예를 들어, 전체 문서에서 숫자를 모두 지운다거나 자음과 모음을 모두 찾아 지우는 코드를 단 한 줄로 끝낼 수 있다. 완성형 한글이 아닌 불필요한 기호를 지울 수도 있고, 전화번호나 이메일 패턴을 찾아 추출할 수도 있다.

텍스트 데이터를 분석할 수 있는 형태인 문서-단어 행렬(document-term matrix)을 생성하면 전체 문서에서 사용된 단어별로 빈도수를 계산할 수 있으므로 고빈도 단어라든가 동시 출현 단어 목록을 쉽게 확인할 수 있다.

이와 같은 내용을 학습할 수 있는 방법은 여러 가지 있으므로 자신에게 알맞은 방법을 선택하면 된다. 예를 들어, 시간이 오래 걸리더라도 꾸준하게 공부할 수 있도록 스스로 동기부여가 되는 분들은 관련 서적과 유튜브로 공부하는 것으로 추천한다.

만약 짧은 시간에 빠르게 필요한 것만 우선 공부하고 싶다면 패스트캠퍼스나 멀티캠퍼스 같은 교육기관에서 오프라인 강의를 선택하는 방법도 있다. 또한 인프런이나 탈잉, 클래스101 등에서 R과 Python 동영상 강의가 유료로 판매되고 있으므로 오프라인 강의보다 저렴한 금액으로 학습할 수 있다.

아울러 몇 년 전부터 기업에서도 임직원들에게 R과 Python 강의를 제공하고 있다. 학습 방법은 이와 같이 다양하므로 자신에게 맞는 방법을 선택하면 된다.

Q: 현재 활동은

A: 2019년 1월 패스트캠퍼스에서 1년 간 전임강사 계약을 맺고 R School 및 R을 활용한 웹크롤링 강의로 강사 이력을 시작했다. R School에서는 R을 이용해 선형대수, SQL, 머신러닝, 웹크롤링, 텍스트 마이닝 등을 구현하는 방법을 강의했다.

그 뒤로 멀티캠퍼스와 러닝스푼즈에서도 R 데이터 분석을 강의했다. 2020년부터는 기업 임직원을 대상으로 강의를 주로 진행하고 있다. 2019년 12월부터 SK하이닉스 임직원 대상으로 R 데이터 분석 강의를 4년째 진행하고 있고, 2020년 5월부터 LG전자 임직원 대상으로 Python 데이터 분석 강의를 3년째 진행하고 있다.

최근까지 주로 제조업 회사에서 Python 강의 의뢰가 많이 들어오고 있으며, 아쉽게도 금융회사에서는 강의 의뢰가 거의 없는 편이다.

2021년 12월 서울과학종합대학원(aSSIST)과 전임교수 계약을 맺고 빅데이터 MBA 전공 대학원 과정에서 Python 기초 프로그래밍과 통계 분석을 강의하고 있다. 아울러 작년에 《Must Have 나성호의 R 데이터 분석 입문》 책과 탈잉에 ‘파이썬 데이터 분석의 정석’이라는 온라인 강의를 출시했다.

Q: 수강생들의 활용 사례는

A: 영업/마케팅 분야에서 기존 업무를 수월하게 개선한 사례들이 있다. 과거에는 경쟁사 동향을 파악하기 위해 미국 아마존에서 상품별 판매 가격을 일일이 검색해 엑셀에 입력하는 방식으로 수작업했지만, 웹크롤링을 배우고 나서 검색 결과를 빠르게 수집하고 엑셀 파일로 저장하는 것까지 자동화할 수 있었다.

다른 사례로는, 신제품 TV 광고를 한 후에 소비자들의 관심 정도를 네이버 트렌드로 파악하고, 회사 정형 데이터인 매출액과의 상관관계를 계산하는 업무를 개선한 것이다.

기존에는 네이버 트렌드에서 검색한 결과를 엑셀 파일로 내려받고 데이터 분석 작업을 수행한 다음 불필요한 파일은 마우스로 삭제해야 했는데, API를 활용하면 전체 과정에서 마우스로 클릭하는 수작업을 대체할 수 있었다.

마지막 사례로는, 온라인 쇼핑몰에 등록된 상품별 고객 리뷰에서 많이 언급된 단어 목록을 추출해 다수 고객들의 상품에 대한 인식을 파악할 수 있었다. 리뷰에 사용된 단어에 기업에서 의도한 것과 의도하지 않은 것이 포함될 수 있고, 경쟁사 제품에 대한 고객들의 인식도 같은 작업을 통해 파악할 수 있다.

Q: R과 파이썬은

A: 2020년을 기점으로 R보다 Python을 활용하는 데이터 분석가의 비중이 크게 늘어난 것을 체감하고 있다. R은 통계학자가 통계 분석을 위해 개발한 프로그래밍 언어인 반면, Python은 범용 목적으로 개발된 프로그래밍 언어이지만 통계 분석과 머신러닝, 딥러닝 등으로 활용 가능한 범위가 확장되었다.

따라서 데이터 분석을 배우려는 학생과 직장인들이 Python으로 몰리고 있다. 그런데 Python이 다른 프로그래밍 언어보다 배우기 쉽다고 하지만 프로그래밍 경험이 없는 비개발자에게는 여전히 어렵다. 오히려 비개발자 입장에서는 R이 더 쉬운 언어라고 생각한다.

사실 R이나 Python은 도구에 불과하다. R이 Python보다 더 좋은 분야는 데이터 전처리, 시각화, 통계분석이고 특히 마크다운을 활용한 문서화에 특화되어 있으며, Python이 R보다 더 좋은 분야는 머신러닝, 딥러닝이라고 생각한다.

그런데 R과 Python은 서로의 장점을 흡수하고 있다. 예를 들어, R의 ggplot2는 시각화 용도로 가장 많이 활용되는 패키지인데, Python에서는 plotnine이라는 패키지로 ggplot2를 사용할 수 있다.

웹 크롤러의 경우 Python의 requests와 bs4 패키지로 쉽게 개발할 수 있지만 R에서도 httr, rvest 패키지가 있다.

결국 중요한 것은 자신에게 더 익숙한 도구를 사용하는 것이 좋다는 것이고, 두 가지 언어 모두 잘 사용할 수 있으면 더 좋다는 것이다.

저는 이중언어 사용자를 의미하는 ‘bilingual’을 본따 ‘PyRingual’이라는 단어로 저를 소개하고 있다. 제 주변에는 데이터 분석을 위해 두 가지 언어를 섞어서 사용하시는 분들이 많다.

예를 들어, 데이터 전처리와 시각화는 R을 사용하고 머신러닝, 딥러닝 모형을 개발할 때는 Python을 사용하는 식이다. 다만 두 가지 언어를 동시에 배우는 것은 비효율적이라 생각하고, 한 가지 언어만 잘 배우고 싶은 분들께 추천드리고 싶은 방법은 자신이 속한 (또는 속하게 될) 조직에서 많이 사용하는 언어를 배우는 것이 좋다는 것이다.

통계 분석 활용이 목적이라면 R을 배우는 것이 좋고, 데이터 분석을 하는 개발자가 되려면 Python을 배우는 것이 좋다.

■ Interviewer 한 마디

“우보천리의 마음으로 천천히 그리고 꾸준히 실력을 쌓아가시기 바랍니다”

나성호 대표는 꾸준하게 공부하고 실력을 쌓을 수 있는 좋은 방법은 관심 있는 분야에 대해 데이터 분석을 해보는 것이라고 했다.

예를 들어, 프로야구를 좋아한다면 프로야구 선수 데이터를 분석할 수 있고, 주식 가격을 예측하는 모델링도 가능하며, 영화평을 분석해 긍정/부정 리뷰를 분류하는 것도 가능하다는 것이다.

나 대표의 조언은 데이터 분석에 관심을 갖고 시작하는 분들께 힘이 되는 말이다.장경영 선임기자

마케터를 위한 지식·정보 플랫폼
■ 한경 CMO 인사이트 구독하기
https://page.stibee.com/subscriptions/95694