에이아이두 이지(AIDU ez)의 ‘히트맵’ 기능을 이용해 데이터를 시각화했다. 붉은색이 진할수록 양의 상관관계가 높다는 의미다.
에이아이두 이지(AIDU ez)의 ‘히트맵’ 기능을 이용해 데이터를 시각화했다. 붉은색이 진할수록 양의 상관관계가 높다는 의미다.
인공지능(AI) 모델링 과정에서 가장 많은 시간을 투자해야 하는 게 데이터 분석이다. 초보 수준에서 데이터는 대개 수천, 수만 개의 행으로 이뤄진 CSV 파일인 경우가 많다. 그냥 데이터도 아니고 ‘빅’데이터를 이용해 의미 있는 무언가를 찾아내는 게 AI 아니었던가.

엑셀 같은 프로그램으로 파일을 열어서 볼 수도 있지만 데이터 크기가 워낙 크다 보니 한눈에 들어오지 않는다. 데이터를 보기 쉽게 축약하고 그래프로 바꾸기 위해 필요한 도구가 바로 파이선 같은 코딩 프로그램이다. 전문적으로 빅데이터를 다루려면 파이선에서 쓸 수 있는 넘파이(numpy) 같은 연산·분석 도구와 매트플롯립(matflotlib) 등 시각화 도구에 대한 지식이 필수적이다. 이런 도구들을 활용할 수 있어야 데이터가 어떤 식으로 분포돼 있고, 결측치는 얼마나 되는지 등을 파악할 수 있다.

파이선과 관련한 지식은 학습자들에게 ‘장벽’으로 작용할 수 있다. 데이터를 다루기 위해 파이선부터 배우라고 한다면 전문지식이 부족한 학습자 중 몇 명이나 남아있겠는가. 다행히도 AICE 베이식 시험은 파이선 대신 KT가 자체 제작한 그래픽 유저 인터페이스(GUI) 툴인 에이아이두 이지(AIDU ez)를 사용한다. 데이터 분석과 시각화, 가공은 물론 AI 모델 학습, 활용까지 할 수 있다. KT의 클라우드를 통한 가상 환경에서 실행되기 때문에 접속하는 PC의 사양이 낮아도 상관없다.

에이아이두 이지를 실행하고 분석하려는 CSV 파일을 불러오면 화면 좌측 메뉴의 데이터 분석 탭에서 기초적인 정보 분석과 시각화 분석을 할 수 있다. 전체 변수가 몇 개인지, 데이터가 누락된 셀은 몇 개나 있는지 전체적인 통계부터, 최빈값·평균·중간값은 무엇인지도 한 번에 볼 수 있다.

시각화 분석에서는 산점도, 히트맵, 박스 차트, 분포 차트를 이용해 그래프를 만들어 볼 수 있다. 다양한 도구를 쓰면 각 변수 자체를 분석하는 것은 물론 여러 변수 간 상관관계도 찾을 수 있다. 심하게 튀는 데이터를 찾아 없애거나 비어 있는 데이터를 최빈값, 평균값, 중앙값 등으로 채울 수도 있다. 문자로 쓰인 데이터를 컴퓨터가 이해할 수 있게 0, 1로 바꾸거나 단위가 다른 숫자를 0과 1 사이의 값으로 통일해주는 ‘데이터 스케일링’ 기능도 제공한다.

우리가 예측하고 싶은 변수(레이블)에 영향을 많이 주는 요인(피처)을 찾았다면 이것들을 중심으로 AI 모델을 만들어 학습시킬 수 있다. 물론 직접 파이선을 쓰는 것보다 기능이 제한적이지만 ‘코알못’도 쉽게 데이터에 접근할 수 있다는 점은 긍정적으로 평가할 만하다. (④에서 계속)

이승우 기자 leeswoo@hankyung.com