"고객들이 렌털 해지할지 예측하는 AI 만드세요"
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
AICE 어소시에이트는
프로그래밍 언어 파이선으로
데이터 분석 등 전과정 테스트
90분간 총 14개 문항 풀어야
프로그래밍 언어 파이선으로
데이터 분석 등 전과정 테스트
90분간 총 14개 문항 풀어야
“렌털 전문 기업의 마케팅본부에서 일하는 당신은 비데와 정수기 렌털 해지율을 낮추라는 지시를 받고 고민에 빠졌습니다. 고객의 과거 유지·해지 정보를 기반으로 앞으로 고객이 서비스를 해지할지 예측하는 인공지능(AI)을 만들어보세요.”
AICE(AI Certificate for Everyone·에이스)는 기업 내부 데이터를 활용해 실무에서 유용하게 쓸 수 있는 AI 모델을 구축하는 실력을 평가하는 테스트다. 적절히 활용하면 AI와 관련한 기업들의 고민을 덜어줄 수 있다.
1일 AICE 사무국에 따르면 내년 1월부터 공인 민간자격으로 인정되는 AICE 어소시에이트는 프로그래밍 언어인 파이선으로 엑셀과 같은 표 형식(태뷸러) 데이터를 분석, 처리, 모델링하는 실력을 테스트한다. AI의 원리를 이해하고 업무에 적용하는 프로세스 전체를 경험해 실무에 활용하는 역량을 키우도록 하는 게 목표다.
시험은 주피터 랩(jupyter lab) 환경에서 치러진다. 데이터 사이언스 분야에서 가장 흔히 사용하는 툴이다. 다른 개발 툴과 달리 대화형 구조로 돼 있어 파이선 명령어의 결과물을 바로 확인할 수 있다. AICE 홈페이지에서도 KT의 클라우드 환경을 통해 주피터 랩을 제공 중이다.
AICE 어소시에이트는 90분 동안 총 14문항을 풀어야 한다. 실제 업무와 동일하게 탐색적 데이터 분석, 데이터 전처리, 머신러닝·딥러닝 모델링, 모델 성능 평가를 순차적으로 해볼 수 있다.
가장 먼저 해야 할 일은 실습을 위한 라이브러리 패키지 불러오기다. 데이터프레임을 다루기 위한 판다스(pandas)와 시각화에 사용되는 매트플롯라이브러리(matplotlib) 등이 대표적이다. 다음은 데이터를 불러와 분석을 한다. 주어진 데이터가 몇 개의 칼럼(column)을 가졌는지, 데이터가 비어 있는 결측치는 얼마나 되는지 등을 찾는 일도 빠뜨리면 안 된다. 시각화 기능 가운데 히트맵으로 변수 간 상관관계를 찾거나 박스플롯으로 이상치가 많은 데이터를 파악할 수도 있다. 데이터에 대한 이해도가 높을수록 이후 과정도 수월해진다.
데이터 분석을 마쳤다면 전처리를 해야 한다. 비어 있는 데이터는 분석 결과에 따라 최빈값이나 평균치 등 알맞은 값을 채워 넣는다. 데이터를 AI가 이해할 수 있도록 정제하는 레이블 인코딩도 중요하다.
다음은 전처리가 완료된 데이터로 머신러닝, 딥러닝 알고리즘을 이용해 AI 모델을 구축할 차례다. 사이킷런, 텐서플로 같은 라이브러리를 통해 AI 모델을 만들고 원하는 예측을 실행해볼 수 있다. 마지막으로 학습률, 최대 깊이 등 하이퍼파라미터의 설정을 바꿔 모델의 정확도를 높이는 과정까지 시험 문제에 포함된다.
이승우 기자 leeswoo@hankyung.com
AICE(AI Certificate for Everyone·에이스)는 기업 내부 데이터를 활용해 실무에서 유용하게 쓸 수 있는 AI 모델을 구축하는 실력을 평가하는 테스트다. 적절히 활용하면 AI와 관련한 기업들의 고민을 덜어줄 수 있다.
1일 AICE 사무국에 따르면 내년 1월부터 공인 민간자격으로 인정되는 AICE 어소시에이트는 프로그래밍 언어인 파이선으로 엑셀과 같은 표 형식(태뷸러) 데이터를 분석, 처리, 모델링하는 실력을 테스트한다. AI의 원리를 이해하고 업무에 적용하는 프로세스 전체를 경험해 실무에 활용하는 역량을 키우도록 하는 게 목표다.
시험은 주피터 랩(jupyter lab) 환경에서 치러진다. 데이터 사이언스 분야에서 가장 흔히 사용하는 툴이다. 다른 개발 툴과 달리 대화형 구조로 돼 있어 파이선 명령어의 결과물을 바로 확인할 수 있다. AICE 홈페이지에서도 KT의 클라우드 환경을 통해 주피터 랩을 제공 중이다.
AICE 어소시에이트는 90분 동안 총 14문항을 풀어야 한다. 실제 업무와 동일하게 탐색적 데이터 분석, 데이터 전처리, 머신러닝·딥러닝 모델링, 모델 성능 평가를 순차적으로 해볼 수 있다.
가장 먼저 해야 할 일은 실습을 위한 라이브러리 패키지 불러오기다. 데이터프레임을 다루기 위한 판다스(pandas)와 시각화에 사용되는 매트플롯라이브러리(matplotlib) 등이 대표적이다. 다음은 데이터를 불러와 분석을 한다. 주어진 데이터가 몇 개의 칼럼(column)을 가졌는지, 데이터가 비어 있는 결측치는 얼마나 되는지 등을 찾는 일도 빠뜨리면 안 된다. 시각화 기능 가운데 히트맵으로 변수 간 상관관계를 찾거나 박스플롯으로 이상치가 많은 데이터를 파악할 수도 있다. 데이터에 대한 이해도가 높을수록 이후 과정도 수월해진다.
데이터 분석을 마쳤다면 전처리를 해야 한다. 비어 있는 데이터는 분석 결과에 따라 최빈값이나 평균치 등 알맞은 값을 채워 넣는다. 데이터를 AI가 이해할 수 있도록 정제하는 레이블 인코딩도 중요하다.
다음은 전처리가 완료된 데이터로 머신러닝, 딥러닝 알고리즘을 이용해 AI 모델을 구축할 차례다. 사이킷런, 텐서플로 같은 라이브러리를 통해 AI 모델을 만들고 원하는 예측을 실행해볼 수 있다. 마지막으로 학습률, 최대 깊이 등 하이퍼파라미터의 설정을 바꿔 모델의 정확도를 높이는 과정까지 시험 문제에 포함된다.
이승우 기자 leeswoo@hankyung.com