[수학과 만난 바이오] 효과적 치료방법 찾는 인공지능, 그 밑바탕엔 수리과학이 있다
입력
수정
글 현윤경 국가수리과학연구소 의료데이터분석연구팀장데이터의 존재는 인류가 기록을 남기기 시작한 고대에서부터 시작한다. 사람들은 아주 오래전부터 기록, 즉 데이터의 존재와 중요성을 알고 있었을 뿐만 아니라 적극적으로 활용해오고 있었다.
하지만 데이터의 이러한 중요성은 특정 분야에 한정되어 있었고 특수한 목적으로만 활용되었다. 1990년대 중반부터 일상생활에서 인터넷의 등장이 사람의 생활문화를 변화시키는 커다란 전환점이 됐고 데이터의 폭발을 일으키는 단초를 제공했다.이후 인터넷상에서 수많은 종류와 엄청난 양의 데이터가 실시간으로 생산되고 이러한 데이터를 분석할 수 있는 계산 기술과 분석에 적합한 고성능의 컴퓨터 시스템을 필요로 하게 됐다.
이로 인해 등장한 것이 데이터 분석용 분산시스템과 처리 기술들이었다. 이에 힘입어 데이터 분석이라는 분야는 전통적인 과학을 바탕으로 하여 한 단계 끌어올리며 데이터과학이라는 새로운 과학의 패러다임을 낳았다.
기계학습, 인공지능, 의료데이터
데이터과학이 수많은 분야의 기술들이 결합된 융합과학이라는 점에서 알 수 있듯이 단순히 빅데이터의 등장만으로 데이터과학이 자리를 잡은 것은 아니다. 전통적인 인공지능의 개발은 현재까지도 끊임없이 이어지고 있으며, 이러한 연구와 기술개발의 바탕이 없었다면 현재의 데이터과학, 특히 기계학습을 전 분야에 활용할 정도로 많은 관심을 받지 못했을 것으로 생각된다. 최근의 인공지능에 대한 붐을 견인한 것 중에 역시나 인공신경망 기술의 개발을 말하지 않을 수 없다.1951년 뇌의 신경세포 구조, 특히 시냅스를 모사한 퍼셉트론(perceptron)의 등장은 인공지능의 개발에 많은 가능성을 안겨주었다. 그러나 1970년대 중반 비트연산자 중 배타적논리합(XOR)에서의 문제가 밝혀져 인공지능의 첫 번째 빙하기가 왔고 1990년도까지 전문가시스템의 개발이 인공지능의 한 축을 이끌었다. 이후 2000년까지 또 한 번의 인공지능의 겨울이 찾아왔다. 인공지능 기술개발에 대한 기대와는 다르게 침체를 겪게 되고 연구개발의 활동 방향이 대부분 슈퍼컴퓨터를 이용한 고성능 계산에 집중되었던 시기다.
그러나 2000년대에 들어서 인공신경망에 기반을 둔 기계학습 방법인 딥러닝(deep learning)의 등장은 이전 두 번의 인공지능 침체기가 무색할 정도로 인공지능 개발의 기대를 높이고 연구개발 활동의 확산과 저변확대에 큰 역할을 하고 있다.
데이터 중에 인간의 삶의 질 향상에 가장 크게 영향을 미칠 수 있는 데이터가 의료데이터다. 하지만 기계학습 기술이 혁신적으로 개발되고 인공지능에 대한 기대가 높아진 2010년대에도 의료데이터를 활용한 기계학습 기반의 인공지능형 예측기술의 개발은 다른 분야들보다도 지체되고 있었다. 의료데이터가 가지고 있는 여러 가지 해결해야 할 것들 중 개인정보보호와 데이터 통합 및 표준화의 이슈가 이러한 지체의 주요 원인이었다. 이러한 문제들을 단기간에 해결할 수는 없었지만 정부, 의료기관, 연구자들의 지속적인 노력으로 방법을 찾아 인간 삶의 질 향상이라는 목표를 이루기 위한 결과들을 만들어가고 있다. 국가수리과학연구소 역시 의료 분야에서 발생하는 빅데이터를 활용해 환자의 질병을 진단하고 효과적인 치료방법을 찾는 인공지능 연구를 진행 중이다. 의료데이터 분석과 통계학
의료데이터 분석에서 전통적으로 통계학의 역할이 매우 큰 자리를 잡고 있었고, 현재도 중요한 역할을 맡고 있다. 특히 의료데이터의 지역적 성격과 다른 분야의 데이터들보다도 매우 적은 데이터 량의 경우 기계학습을 적용하여 유효한 결과를 얻기가 어렵기 때문에 통계학의 활용은 필수불가결하다.
이와는 다르게 의료영상데이터는 많은 양의 영상데이터가 존재하고 있었으며 의료 빅데이터로서 충분한 가능성이 있었다. 이를 활용한 연구와 스타트업이 많이 나오게 되었다. 의료영상데이터 이외에 중요한 의료데이터가 바로 테이블 형태로 수집이 가능한 각종 검사에 대한 데이터와 질환의 특성을 나타내는 인자들의 정보데이터가 있다.이런 데이터는 의료계에서 손쉽게 수집 및 전처리가 가능하고 의사의 통찰력을 반영하기에 매우 수월하다.
또한 분석과 예측을 가능하게 하는 통계적 기계학습(statistical machine learning) 알고리즘들이 개발되었다. 그중에 비교적 적은 양의 데이터에도 효과적으로 적용할 수 있는 알고리즘이 의사결정을 모사한 결정트리 기반의 알고리즘들이다. 특히 랜덤포레스트(random forest)가 가장 대표적이다.
데이터 속성 중요도 추출·빅데이터 분석,
새로운 가치를 창출하라
빅데이터(big-value data) 분석에 있어서 중요한 임무 중 하나는 데이터를 기반으로 하고 있기 때문에 기존 분야의 통찰력을 반영하는 것 이외에도 통상적인 활동에서 간과하고 있었던 혹은 잘 발견되지 않았던 중요한 인자(factor), 속성(feature)을 탐색하고 새로운 가치를 창출하는 것이다. 이것은 의료·생명 분야에서 바이오마커를 찾는 것과 같다. 단지 접근 방법론에서 새로이 기계학습이라는 방법을 선택한 것이다.
새로운 분석 알고리즘을 활용하였기 때문에 분석과 해석에 있어서 기존 통계기법으로 찾아낸 결과와는 차이가 있을 수 있지만, 많은 경우 데이터도메인에서 제공하는 주요 통찰력을 반영하고 있다.
기계학습 알고리즘 중 결정트리 기반의 방법론들이 이를 위한 모듈인 속성 중요도를 결과로 제공한다. 기계학습 알고리즘 모두 속성 중요도를 제공하고 있는 것은 아니다.
특히 딥러닝의 경우 분석 및 예측의 속성들이 아직은 해석하기 어려운 블랙박스 형태의 알고리즘에 의해서 계산되고 선택되기 때문에 이러한 속성 중요도를 제공하지 못한다.
최근 연구되는 해석 가능한 인공지능(explainable artificial intelligence)에서는 가능할 수 있다. 딥러닝에서와 같이 속성을 자동으로 탐색하는 알고리즘의 개발연구는 이전에도 있어왔으며 그중에 스케일불변 특성변환(SIFT·Scale-invariant Feature Transform)이 많은 관심을 받았다.
대체적인 수학의 활용 관점에서 설명하자면 주어진 이미지데이터에 가우스함수를 활용하여 합성(convolution)하고 이를 통하여 여러 가지 평활(smoothing) 결과를 얻어 그것들 사이의 차이에 대한 1차 테일러 근사를 적용하면 이미지데이터상의 목적물체(target object)의 특징을 얻게 된다.
이 과정을 통하여 얻게 되는 특징은 목적물체(target object)의 가장자리(edge)를 잘 나타낸다. 이 방법을 사용하여 의료데이터 분석 분야에서는 뇌 이미지로부터 알츠하이머와 같은 병변 특징을 나타내는 부위를 특정할 수 있다. 또한 이 기술은 특수목적(국방·인공위성 등)으로 활용될 수 있다.
기계학습을 활용한 인공지능형 질환예측 모델
국가수리과학연구소는 2012년부터 빅데이터 분석과 활용에 대한 수리과학의 역할이 매우 중요하다고 인식하고 수리과학에 기반을 둔 빅데이터 분석기술 연구를 시작하여 현재 기계학습을 활용한 인공지능형 질환예측 모델을 개발하고 있다.
또 데이터 분석 및 예측 결과로부터 데이터도메인에 대한 전문가적 통찰력을 얻기 위해서 상호작용형 시각화분석 프레임워크를 개발하는 연구도 수행하였다. 기계학습을 활용한 의료데이터 기반의 질환예측을 위한 지역의 대형병원과 적극적 협력을 통해서 질환 관련 데이터를 확보하고 각 질환에 관련된 임산전문의의 통찰력을 반영한 데이터의 속성에 대한 모델을 수립하고 수집하였다.
이를 통해 전립선암, 요로결석 쇄석술의 성공, 신장 투석 시 임상 건체중(clinical dry weight) 예측 모델을 공동 연구개발했다. 신장 투석 시 임상 건체 중 예측 모델 개발에서는 새로운 속성를 찾아 데이터를 분석함으로써 환자 그룹들 간의 특징을 변별할 수 있는 좋은 결과를 얻었다.
기계학습에 기반을 둔 속성의 중요도와 속성을 탐색 알고리즘을 활용하여 바이오마커를 찾는 것은 기존 전통적인 통계방법론과는 다른 새로운 시도이고 그 차이가 존재한다.
이런 속성의 중요도는 예측을 위한 기계학습 기법에 기반을 둔 것으로 보다 효과적이고 데이터도메인과 전문가의 통찰력을 반영한 속성의 중요도에 대한 정의 역시 정의를 찾아야만 하는 연구가 필요하며, 수리과학의 역할이 더더욱 필요한 분야이기도 하다. 수학적 행렬분해 알고리즘, 이미지를 해석하다
빅데이터 분석에서 기계학습에 이르기까지 수리과학의 역할은 기계학습의 핵심에 깔려 있다. 분석과 예측 알고리즘을 개발할 때 수학의 선형대수, 수치해석, 최적화를 생각하지 않을 수 없다. 이러한 수학의 이론을 바탕으로 응용되고 적용되는 알고리즘들이 대부분이라고 할 수 있다. 수리과학은 핵심이지만 기계학습 알고리즘이나 방법론의 기본 밑바탕의 역할을 하고 그 위에 새로운 아이디어가 쌓여 만들어진 결과물에서 그 역할을 직접 찾아보기 어렵다는 것이다.
그럼에도 불구하고 수학의 역할을 직접적으로 볼 수 있는 빅데이터 분석 및 기계학습 알고리즘들이 있다. 그중에 많은 주목을 받아 활용되고 있는 것이 음이 아닌 행렬분해(NMF·Nonnegative Matrix Factorization)이다. 1990년 <사이언스>에 발표된 논문 ‘Learning the parts of objects by non-negative matrix factorization’으로 많은 주목을 받았다. 이 연구가 수학적으로 중요한 이유는 단순한 수학적 행렬분해 알고리즘이 이미지데이터에서 사람의 전형적인 인식에 대한 구성요소(component)와 기저(basis)를 찾아내고 해석할 수 있는 근거를 제시했다는 점이다.
이 결과는 해석 가능성에 대한 접근법을 제공할 수 있다. 원리를 간단히 설명하면 입력된 사람의 얼굴 이미지 데이터행렬(V)을 두 개의 음이 아닌 행렬들(W, H)로 분해함으로써(V≈WH), 사람이 직관적으로 인지하는 사람 얼굴의 요소들을 매우 유사하게 분석했다. 음이 아닌 행렬분해는 문서, 이미지, 소셜네트워크, 신호처리, 경제데이터 분석 등 다양한 분야의 데이터 분석에 활용이 가능하다.
또 하나의 대표적인 수리과학적 데이터 분석방법은 위상수학 이론을 데이터 분석에 직접 적용한 위상 데이터 분석이다. 위상수학의 단순 복합체(simplicial complex)와 퍼시스턴트 호몰로지(persistent homology)를 이용하여 기존 기계학습 방법론에서 얻지 못한 군집화(clustering) 결과를 얻을 수 있었다.
위와 같이 행렬분해, 위상수학이 데이터 분석에 활용되고 대수기하, 미분기하, 수치선형대수, 수리모델링 등 간단한 수학부터 고등 수학이론들이 데이터 분석과 예측 모델 알고리즘의 개발에 활용되고 있다. 수학이론의 전문성과 복잡성으로 인해 숨어있는 수학적 이론과 방법론을 탐색하고 적용할 수 있는 것은 역시 수학자들에게 상대적으로 수월할 수 있다고 여겨진다. 독립적인 수학이론과 방법론을 연구하는 것이 아니라면 수리과학 이론과 방법론들이 산업에서의 결과에 직관적으로 나타나는 예를 찾기는 매우 어렵다.
하지만 기계학습에 기반을 둔 인공지능의 핵심기술은 결국 유효한 혹은 향상된 알고리즘의 개발을 통해서 얻을 수 있으며 그 바탕에 수리과학이 존재한다. 중심으로부터의 혁신을 이룰 수 있는 도구를 제공할 수 있는 수리과학의 역할이 한층 더 중요해지고 있으며, 수리과학이 또 다른 인공지능의 겨울을 막을 수 있는 주요 인자일 수 있다. <저자 소개>
현윤경 국가수리과학연구소 의료데이터분석연구팀장 국가수리과학연구소에서 의료데이터분석팀장으로 재직 중이다. KAIST 수리과학과에서 수치해석으로 박사학위를 취득한 뒤, 미국 펜실베이니아주립대, 미네소타대에서 복잡유체에 대한 수리모델링을 연구했다. 2013년도부터 수리모델링과 수치해석을 바탕으로 수리과학 기반의 빅데이터 분석, 예측모델 연구를 하고 있다.
*이 글은 <한경바이오인사이트> 매거진 2021년 5월호에 실렸습니다.