[김인중이 전하는 딥러닝의 세계]<8> 딥러닝과 지식의 전이
입력
수정
딥러닝은 최근 십여 년 동안 AI기술의 급속한 발전을 가능하게 한 원동력이다. 딥러닝의 핵심은 심층신경망을 이용해 데이터로부터 높은 수준의 추상적 지식을 학습함으로써 복잡하고 어려운 작업까지도 효과적으로 수행하는 데 있다. 그런데, 딥러닝은 또한 기존 기술들과 결합하며 그 시너지에 의해 다양한 혁신을 일으켰다. 그 중 하나는 AI모델들 간 지식의 전이를 통해 더욱 강력한 AI를 쉽게 만들 수 있게 된 것이다.
그런데, 새로운 작업을 학습하기 위해서는 대량의 데이터가 반드시 필요할까? 인간은 소수의 예제나 적은 경험만으로도 새로운 지식을 비교적 빠르게 습득하는데 이는 인간이 과거에 배운 지식을 기반으로 새로운 지식을 습득하기 때문이다. 예를 들면 국문법에서 배운 개념을 활용해 영문법을 쉽게 배울 수 있고 수학에서 배운 개념을 활용해 과학적 개념을 쉽게 이해할 수 있다. 이러한 원리는 딥러닝 분야에서 심층신경망의 학습 효율을 개선하는 데에도 널리 활용할 수 있다.
전이학습은 한 작업을 위해 학습한 지식을 활용해 다른 작업을 효율적으로 학습하는 기술이다. 목표작업의 데이터만을 이용해 심층신경망을 처음부터 학습할 경우 데이터가 충분하지 않으면 우수한 성능을 얻기 어렵다. 또한, 데이터가 제한될 경우 사용할 수 있는 신경망의 규모 역시 제한되는데 이는 신경망의 규모가 클수록 더 많은 학습 데이터를 요구하기 때문이다. 그러나 데이터가 풍부한 유사 작업에 대하여 심층신경망을 학습한 후 그 지식을 전이해 사용하면 적은 데이터로도 우수한 성능을 얻을 수 있다. 이전 작업을 위해 학습한 지식이 새로운 작업에도 유용하기 때문이다. 특히 매우 많은 데이터로 학습된 대규모 심층신경망은 다양하고 풍부한 지식을 갖는데, 전이학습은 이러한 지식을 새로운 목표 작업에 재활용할 수 있게 한다.
최상위 계층들은 현재의 목표 작업에 직접 관련된 지식을 주로 학습하는데, 이러한 지식은 다른 작업에 활용하기 어렵다. 그러나, 중하위 계층이 학습하는 추상적 정보의 추출 및 표현을 위한 지식은 다른 작업에도 유용하다. 뿐만 아니라, 이러한 지식은 심층신경망의 중하위 계층들을 분리해 새로운 작업을 위한 최상위 계층들과 연결함으로써 쉽게 전이할 수 있다. 결국 심층신경망 간에 전이되는 지식은 입력 데이터로부터 추상적 정보를 추출하여 후속 작업에 용이한 형태로 표현하기 위한 지식이다. 따라서, 전이학습의 효과는 기존 작업과 새로운 작업 간 공통점이 많을 수록, 그리고, 기존 작업을 위한 데이터가 풍부할수록 증가한다.
또한, 전이학습은 심층신경망의 학습 방법 및 목표에 대한 새로운 수요를 창출하였다. 과거 딥러닝 모델들이 특정 목표 작업을 위한 지식을 학습한 반면, 전이학습이 보편화된 이후에는 다양한 후속작업에 유용한 지식을 학습하기 위한 연구가 활발히 진행되고 있다. 이러한 기술을 연구하는 분야로는 비지도 사전 학습에 의한 표현학습, 메타학습, 척도학습 등이 있는데 이들의 목표는 후속 작업에 전용할 수 있는 풍부하고 활용성 높은 지식을 학습하는 것이다.
<한동대 교수>
지식의 전이(Knowledge Transfer)란?
데이터 기반 AI모델들은 작업에 필요한 지식을 데이터로부터 습득한다. 새로운 작업을 수행하기 위해서는 새 작업을 학습하기 위한 데이터를 확보해야 한다. 딥러닝의 강력한 학습 능력은 AI의 성능을 크게 개선하였으나, 데이터에 대한 수요는 오히려 증가시켰다. 대규모 데이터에 딥러닝을 적용하면 풍부한 지식을 효과적으로 학습할 수 있기 때문에 더 많은 데이터를 사용하여 AI의 성능을 강화하려는 트렌드가 만들어진 것이다.그런데, 새로운 작업을 학습하기 위해서는 대량의 데이터가 반드시 필요할까? 인간은 소수의 예제나 적은 경험만으로도 새로운 지식을 비교적 빠르게 습득하는데 이는 인간이 과거에 배운 지식을 기반으로 새로운 지식을 습득하기 때문이다. 예를 들면 국문법에서 배운 개념을 활용해 영문법을 쉽게 배울 수 있고 수학에서 배운 개념을 활용해 과학적 개념을 쉽게 이해할 수 있다. 이러한 원리는 딥러닝 분야에서 심층신경망의 학습 효율을 개선하는 데에도 널리 활용할 수 있다.
전이학습은 한 작업을 위해 학습한 지식을 활용해 다른 작업을 효율적으로 학습하는 기술이다. 목표작업의 데이터만을 이용해 심층신경망을 처음부터 학습할 경우 데이터가 충분하지 않으면 우수한 성능을 얻기 어렵다. 또한, 데이터가 제한될 경우 사용할 수 있는 신경망의 규모 역시 제한되는데 이는 신경망의 규모가 클수록 더 많은 학습 데이터를 요구하기 때문이다. 그러나 데이터가 풍부한 유사 작업에 대하여 심층신경망을 학습한 후 그 지식을 전이해 사용하면 적은 데이터로도 우수한 성능을 얻을 수 있다. 이전 작업을 위해 학습한 지식이 새로운 작업에도 유용하기 때문이다. 특히 매우 많은 데이터로 학습된 대규모 심층신경망은 다양하고 풍부한 지식을 갖는데, 전이학습은 이러한 지식을 새로운 목표 작업에 재활용할 수 있게 한다.
딥러닝에서의 전이학습 (Transfer Learning)
신경망에 대한 전이학습은 오래전에 개발되었으나 딥러닝과 결합됨으로써 매우 큰 시너지를 일으켰다. 심층신경망의 구조와 학습 원리가 전이학습에 매우 적합하기 때문이다. 심층신경망은 많은 수의 계층으로 구성된다. 입력 데이터는 숫자 형태로 표현된 후 심층신경망의 각 계층을 통과할 때마다 목표작업에 좀 더 용이한 형태로 변환된다. 상위 계층들은 하위 계층에 비해 훨씬 전역적이고 추상화된 정보(예: 물체의 종류 및 형태)들을 표현하는데 이러한 표현 방식은 인식, 예측 등의 목표 작업에 매우 효과적이다. 심층신경망에서 인식이나 예측은 최상위에 위치한 소수의 계층에 의해 이루어지는 반면 그 외 계층들의 역할은 입력 데이터로부터 추상적인 정보를 추출하여 목표 작업에 효과적인 방식으로 표현하는 것이다.최상위 계층들은 현재의 목표 작업에 직접 관련된 지식을 주로 학습하는데, 이러한 지식은 다른 작업에 활용하기 어렵다. 그러나, 중하위 계층이 학습하는 추상적 정보의 추출 및 표현을 위한 지식은 다른 작업에도 유용하다. 뿐만 아니라, 이러한 지식은 심층신경망의 중하위 계층들을 분리해 새로운 작업을 위한 최상위 계층들과 연결함으로써 쉽게 전이할 수 있다. 결국 심층신경망 간에 전이되는 지식은 입력 데이터로부터 추상적 정보를 추출하여 후속 작업에 용이한 형태로 표현하기 위한 지식이다. 따라서, 전이학습의 효과는 기존 작업과 새로운 작업 간 공통점이 많을 수록, 그리고, 기존 작업을 위한 데이터가 풍부할수록 증가한다.
전이학습이 가져온 파급 효과
전이학습은 딥러닝의 발전에 매우 큰 영향을 끼쳤다. 영상처리분야에서는 대규모 영상 데이터로부터 학습한 지식을 이용해 학습데이터가 부족한 대상을 효과적으로 인식할 수 있게 되었고, 물체 인식을 위해 학습된 지식을 이용해 물체를 검출하거나 물체의 영역을 화소 단위 분할하는 등 다양한 작업에 활용함에 따라 해당 분야의 성능이 크게 개선되었다. 음성처리 분야에도 전이학습은 널리 사용된다. 화자 별 음성데이터가 부족한 경우에도 우수한 성능의 음성인식, 또는 음성합성 모델을 학습할 수 있으며, 화자 인식을 위해 학습된 신경망의 지식을 전이하여 음성합성기가 화자 특성을 잘 반영하도록 개선하기도 한다. 자연어 처리분야에는 목표 작업이 다양하고 각 작업을 위한 데이터와 레이블을 대규모로 수집하기 어렵기 때문에 전이학습이 특히 중요하다. 2018년 이후에는 BERT, GPT 등 대규모 기반 모델의 지식을 전이함으로써 다양한 자연어처리 작업의 성능을 개선하기 위한 연구가 많이 이루어졌는데, 이러한 기법 역시 전이학습의 일종이다.또한, 전이학습은 심층신경망의 학습 방법 및 목표에 대한 새로운 수요를 창출하였다. 과거 딥러닝 모델들이 특정 목표 작업을 위한 지식을 학습한 반면, 전이학습이 보편화된 이후에는 다양한 후속작업에 유용한 지식을 학습하기 위한 연구가 활발히 진행되고 있다. 이러한 기술을 연구하는 분야로는 비지도 사전 학습에 의한 표현학습, 메타학습, 척도학습 등이 있는데 이들의 목표는 후속 작업에 전용할 수 있는 풍부하고 활용성 높은 지식을 학습하는 것이다.
<한동대 교수>