데이터 전문가들이 꼭 알아야 할 알고리즘 5개
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
AI 패턴 인식에는 서포트 벡터 머신이 필요
순환신경망 갈수록 쓰임새 많아
순환신경망 갈수록 쓰임새 많아
인공지능(AI)의 핵심은 데이터에 있다고 해도 과언이 아닙니다. 데이터 과학자들은 이 데이터를 분석해 통찰력을 얻어 기업 의사결정에 도움을 주는 전문가들입니다. 이들은 각종 알고리즘 도구를 사용해 기계학습 모델을 구축해 데이터를 분석합니다. 세상에는 많은 알고리즘이 있지만 기계학습의 세계에 힘을 실어주는 데이터 과학 알고리즘들이 많이 있습니다. 데이터 전문저널 애널리틱스 인사이트가 데이터 과학자라면 꼭 알아야 할 머신 러닝 세계 지원 5개의 알고리즘을 정리했습니다. 이를 소개합니다.
① 선형 회귀(Linear Regression)= 가장 기본적이고 보편화한 데이터 알고리즘입니다. 독립 변수와 종속 변수의 관계를 그래프와 수치로 보여줍니다. 모든 데이터 포인트에서 수직거리가 최소가 되도록 최적의 선형 라인을 그려 이를 토대로 데이터의 관계를 보여주는 프로그램입니다.
②로지스틱스 회귀(Logistics Regression)= 선형 회귀분석의 종속변수를 수치가 아닌 범주로 구분하는 알고리즘입니다. 하나의 집단에 속하지만 어느 집단인지 알지 못하는 수치가 있다면 이를 특정 집단으로 분류하기 위해 사용됩니다. 데이터 출력값이 수치보다 어느 클래스에 분류되는지가 더욱 중요합니다.
③서포트 벡터머신(Support Vector Machine) = 인공지능 패턴 인식에 필요한 대표적 알고리즘입니다. 안면 인식과 유전자 특성화 작업에 많이 쓰입니다. 의학분야에서 서포트백터 머신으로 화합물을 분류하면 90%의 정확도로 단백질을 구별할 수 있다고 합니다. 데이터 전문가들이 분류 오류를 최소화할 수 있도록 하는 모델도 있습니다.
④ K 평균 군집화(K-mean clustering) = 비슷한 특성을 갖는 데이터를 K개의 클러스터로 묶는 알고리즘입니다. 고객을 나눠 마케팅 활동을 효율적으로 하는 것, 특정 독자에게 뉴스 기사를 추천하는 것 등이 이 알고리즘 기법을 통해 이뤄집니다. 잘 된 군집화는 분산이 작은 클러스터링입니다.
⑤ 순환신경망 (Recurrent Neural Network) = 시계열 데이터와 같이 시간 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 모델입니다. 궁극의 신경망이라고 부를 만큼 응용할 수 있는 곳이 많고 사용된 데이터를 시간의 순차적 진행으로 표현할 수 있습니다. 하지만 이전 단계의 정보가 제대로 반영되지 않을 수 있기 때문에 이를 모두 포함하려면 또 다른 알고리즘이 필요할 수 있습니다.
오춘호 연구위원
① 선형 회귀(Linear Regression)= 가장 기본적이고 보편화한 데이터 알고리즘입니다. 독립 변수와 종속 변수의 관계를 그래프와 수치로 보여줍니다. 모든 데이터 포인트에서 수직거리가 최소가 되도록 최적의 선형 라인을 그려 이를 토대로 데이터의 관계를 보여주는 프로그램입니다.
②로지스틱스 회귀(Logistics Regression)= 선형 회귀분석의 종속변수를 수치가 아닌 범주로 구분하는 알고리즘입니다. 하나의 집단에 속하지만 어느 집단인지 알지 못하는 수치가 있다면 이를 특정 집단으로 분류하기 위해 사용됩니다. 데이터 출력값이 수치보다 어느 클래스에 분류되는지가 더욱 중요합니다.
③서포트 벡터머신(Support Vector Machine) = 인공지능 패턴 인식에 필요한 대표적 알고리즘입니다. 안면 인식과 유전자 특성화 작업에 많이 쓰입니다. 의학분야에서 서포트백터 머신으로 화합물을 분류하면 90%의 정확도로 단백질을 구별할 수 있다고 합니다. 데이터 전문가들이 분류 오류를 최소화할 수 있도록 하는 모델도 있습니다.
④ K 평균 군집화(K-mean clustering) = 비슷한 특성을 갖는 데이터를 K개의 클러스터로 묶는 알고리즘입니다. 고객을 나눠 마케팅 활동을 효율적으로 하는 것, 특정 독자에게 뉴스 기사를 추천하는 것 등이 이 알고리즘 기법을 통해 이뤄집니다. 잘 된 군집화는 분산이 작은 클러스터링입니다.
⑤ 순환신경망 (Recurrent Neural Network) = 시계열 데이터와 같이 시간 흐름에 따라 변화하는 데이터를 학습하기 위한 딥러닝 모델입니다. 궁극의 신경망이라고 부를 만큼 응용할 수 있는 곳이 많고 사용된 데이터를 시간의 순차적 진행으로 표현할 수 있습니다. 하지만 이전 단계의 정보가 제대로 반영되지 않을 수 있기 때문에 이를 모두 포함하려면 또 다른 알고리즘이 필요할 수 있습니다.
오춘호 연구위원