김인중이 전하는 딥러닝의 세계<4> 새로운 패러다임,초거대 AI
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
한동대 교수
최근 2~3년간 AI기술의 주요 트랜드 중 하나는 거대 AI모델들의 약진이다. 2018년 GPT와 BERT가 개발된 후 자연어처리 분야에 사용되는 AI모델의 규모는 계속 증가해왔다. 특히 2020년 발표된 GPT-3의 규모와 성능은 큰 화제가 되었다. 이러한 트랜드는 화웨이의 판구알파 및 네이버의 하이퍼클로바로 이어졌으며, 아직 출현하지 않은 GPT-4도 벌써부터 규모와 성능에 대한 궁금증을 자아내고 있다. 초거대 AI모델들이 딥러닝의 새로운 패러다임이 된 이유와 그들의 한계는 무엇인가?
이러한 한계를 극복하기 위해 널리 사용되는 방법은 타 작업을 위해 학습된 신경망의 지식을 전이해 사용하는 것이다. 목표 작업을 학습하기 위한 데이터가 부족할 경우 데이터가 풍부한 유사 작업에 대하여 신경망을 사전학습한 후 그 모델을 전용하면 목표 작업에서 비교적 우수한 성능을 얻을 수 있다. 예를 들어 소량의 데이터만으로 강아지와 고양이를 구분하는 AI를 개발해야할 경우 대규모 물체영상 데이터로 학습된 신경망을 전용해 상위 1~2개의 계층만을 강아지와 고양이 영상으로 추가학습한다. 이러한 전이학습이 효과적인 이유는 유사 작업을 수행하기 위해 습득한 지식이 목표 작업에도 도움이 되기 때문이다.
전이학습의 효과는 사전학습에 의해 습득된 지식이 풍부하고 목표 작업과 많이 관련될수록 증가한다. 따라서 사전학습에는 일반적으로 대규모 데이터가 사용된다. 풍부한 지식을 학습하기 위해서는 AI의 학습능력 역시 강력해야 하는데, 이는 거대모델들이 사용되는 가장 중요한 이유이다. 잘 학습된 거대모델들은 다양하고 풍부한 지식을 보유하고 있어서 목표 작업에 전용될 경우 소량의 학습데이터만으로도 우수한 성능을 얻을 수 있다. 이들은 여러 작업에 전용될 수 있는 기반지식을 보유하고 있다는 의미에서 기반모델(foundation model)이라고 불리운다.
조건부 확률이 충분히 정확하여 주어진 질문에 대한 답을 적절히 합성할 수 있다면 GPT-3가 텍스트를 어느정도 이해했다고 볼 수도 있다. 그러나 합성된 문장의 사실성, 논리적 무결성, 상황에 대한 적절성 등을 보장하기에는 충분하지 않다. 학습데이터에 포함되지 않았고 여러 단계의 추론을 필요로하는 질문, 비유나 암시, 중의적 표현이 포함된 문장 등이 입력될 경우 부적절한 답을 출력하기도 한다. 그 외에도 현재의 기반모델들은 지식 표현 및 학습 방식이 비효율적이어서 막대한 계산을 요구하며, 높은 수준의 추상화가 어렵고, 인과관계나 수학적/물리적 개념을 이해하지 못한다. 윤리성, 양심, 배려 등을 기대하기 어려운 것은 물론이고 데이터에 존재하는 오류나 편견, 부적절한 표현 등을 여과없이 학습할 위험성도 있다. 또 한가지 심각한 문제는 기반모델을 이용한 AI가 증가하고 있음에도 불구하고 기반모델이 학습한 내용이 무엇인지 검증하기 어렵다는 점이다.
지금까지 개발된 초거대 기반모델들은 의미있는 성과인 동시에 많은 한계를 가지고 있다. 대규모 기반모델에 대하여 지나치게 기대하거나 현재의 기반모델들이 가진 한계에 너무 실망하기보다는 지속적인 연구를 통해 위에서 열거한 문제점들을 극복하는 동시에 부작용이 최소화되도록 지혜롭게 활용하는 것이 바람직하다.
한동대 교수
초거대 AI가 출현한 이유
데이터기반 AI들은 작업을 수행하는데 필요한 지식을 데이터로부터 학습한다. 딥러닝 기술의 발전으로 인해 AI의 학습능력은 과거와 비교할 수 없을만큼 강력해졌다. 그럼에도 불구하고 데이터기반 AI의 성능은 여전히 학습데이터의 규모와 품질에 좌우된다. 충분한 학습데이터를 확보할 수 있는 작업에는 높은 성능을 얻을 수 있으나 그렇지 않은 작업에는 높은 성능을 얻기 어렵다.이러한 한계를 극복하기 위해 널리 사용되는 방법은 타 작업을 위해 학습된 신경망의 지식을 전이해 사용하는 것이다. 목표 작업을 학습하기 위한 데이터가 부족할 경우 데이터가 풍부한 유사 작업에 대하여 신경망을 사전학습한 후 그 모델을 전용하면 목표 작업에서 비교적 우수한 성능을 얻을 수 있다. 예를 들어 소량의 데이터만으로 강아지와 고양이를 구분하는 AI를 개발해야할 경우 대규모 물체영상 데이터로 학습된 신경망을 전용해 상위 1~2개의 계층만을 강아지와 고양이 영상으로 추가학습한다. 이러한 전이학습이 효과적인 이유는 유사 작업을 수행하기 위해 습득한 지식이 목표 작업에도 도움이 되기 때문이다.
전이학습의 효과는 사전학습에 의해 습득된 지식이 풍부하고 목표 작업과 많이 관련될수록 증가한다. 따라서 사전학습에는 일반적으로 대규모 데이터가 사용된다. 풍부한 지식을 학습하기 위해서는 AI의 학습능력 역시 강력해야 하는데, 이는 거대모델들이 사용되는 가장 중요한 이유이다. 잘 학습된 거대모델들은 다양하고 풍부한 지식을 보유하고 있어서 목표 작업에 전용될 경우 소량의 학습데이터만으로도 우수한 성능을 얻을 수 있다. 이들은 여러 작업에 전용될 수 있는 기반지식을 보유하고 있다는 의미에서 기반모델(foundation model)이라고 불리운다.
초거대 기반모델들의 원리와 한계
대표적 기반모델인 GPT-3는 뛰어난 성능에도 불구하고 여러 한계를 노출하였는데 기반모델들의 원리를 이해하면 그 이유를 쉽게 찾을 수 있다. 기반모델들은 특정 작업을 목표로 학습되기 때문에 일반성에 한계를 갖는다. 자연어처리 분야에서 널리 사용되는 사전학습 방법은 AI모델이 주어진 텍스트로부터 다음 단어, 또는 텍스트 가운데 빈 단어를 맞추도록 학습하는 것이다. 이 방법은 별도의 정답 레이블을 요구하지 않기 때문에 대규모 데이터로부터 유용한 지식을 학습하는데 효과적이다. 그러나, 이러한 사전학습을 통해 AI가 습득한 지식은 내용에 대한 이해가 아니라 전후의 문맥으로부터 단어를 맞추기 위한 조건부 확률이다. 학습 완료 후 사용시에는 조건부 확률에 의해 단어들을 순차적으로 예측함으로써 문장을 합성한다. 조건부 확률이 학습데이터의 분포를 반영하기 때문에 GPT-3가 합성한 문장은 보통 언어적으로 적법하며 내용도 제법 타당하게 보인다. 또한 막대한 양의 데이터로부터 학습되었기 때문에 여러 질문에 적절히 답할 수 있다.조건부 확률이 충분히 정확하여 주어진 질문에 대한 답을 적절히 합성할 수 있다면 GPT-3가 텍스트를 어느정도 이해했다고 볼 수도 있다. 그러나 합성된 문장의 사실성, 논리적 무결성, 상황에 대한 적절성 등을 보장하기에는 충분하지 않다. 학습데이터에 포함되지 않았고 여러 단계의 추론을 필요로하는 질문, 비유나 암시, 중의적 표현이 포함된 문장 등이 입력될 경우 부적절한 답을 출력하기도 한다. 그 외에도 현재의 기반모델들은 지식 표현 및 학습 방식이 비효율적이어서 막대한 계산을 요구하며, 높은 수준의 추상화가 어렵고, 인과관계나 수학적/물리적 개념을 이해하지 못한다. 윤리성, 양심, 배려 등을 기대하기 어려운 것은 물론이고 데이터에 존재하는 오류나 편견, 부적절한 표현 등을 여과없이 학습할 위험성도 있다. 또 한가지 심각한 문제는 기반모델을 이용한 AI가 증가하고 있음에도 불구하고 기반모델이 학습한 내용이 무엇인지 검증하기 어렵다는 점이다.
지금까지 개발된 초거대 기반모델들은 의미있는 성과인 동시에 많은 한계를 가지고 있다. 대규모 기반모델에 대하여 지나치게 기대하거나 현재의 기반모델들이 가진 한계에 너무 실망하기보다는 지속적인 연구를 통해 위에서 열거한 문제점들을 극복하는 동시에 부작용이 최소화되도록 지혜롭게 활용하는 것이 바람직하다.
한동대 교수