차세대 트랜스포머 찾는다…새 AI 알고리즘 나오나
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
생성형 AI 토대 트랜스포머
훈련에 상당한 시간·비용 들어
업계, 더 똑똑한 AI 모델 찾기
훈련에 상당한 시간·비용 들어
업계, 더 똑똑한 AI 모델 찾기
생성형 인공지능(AI)의 토대가 되는 ‘트랜스포머’ 알고리즘을 개선하기 위한 시도가 이어지고 있다. 트랜스포머는 AI 역사상 최고의 발명품으로 손꼽히지만, 데이터 학습에 비용이 많이 들어가고 에너지 소비량도 상당하다. AI가 지속 가능한 기술로 자리 잡기 위해 트랜스포머보다 나은 기술이 필요하다는 지적이 나오는 이유다.
27일 정보기술(IT)업계에 따르면 마이크로소프트와 중국 칭화대 연구진은 트랜스포머를 개선한 ‘차등 트랜스포머(Differential Transformer)’에 관한 논문을 발표했다. 트랜스포머는 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 최신 딥러닝 모델이다. 오픈AI의 GPT 등 생성형 AI가 트랜스포머를 기반으로 개발됐다. 다만 트랜스포머는 결과물 예측이 어렵고 훈련에 상당한 시간과 비용이 소모되는 등 단점이 있다. 차등 트랜스포머는 입력과 가장 관련 높은 부분에 가중치를 두는 ‘차등 어텐션’ 메커니즘을 도입했다. 연구진은 “긴 콘텍스트 모델링과 핵심 정보 검색, 환각 현상 완화 등 주목할 만한 이점을 제공한다”고 설명했다.
트랜스포머를 대체하는 새로운 알고리즘도 나타나고 있다. 미국의 AI 스타트업 리퀴드AI는 액체신경망(LNN) 아키텍처 기반 ‘리퀴드 파운데이션 모델’을 이달 초 내놨다. LNN은 동적으로 조절할 수 있는 방정식을 이용해 기존 AI 모델보다 새로운 상황에 유연하게 대응할 수 있다.
지난 7월에는 미국 스탠퍼드대, UC샌디에이고, UC버클리, 메타 연구진이 TTT(Test Time Training) 모델 기반의 소형 언어모델을 발표했다. 트랜스포머는 데이터 처리 과정에서 내용을 기억하기 위해 ‘히든 스테이트’라는 메모리를 사용한다. 트랜스포머의 핵심 기능이지만 매번 이 메모리를 읽어 들이기 때문에 계산 부담이 크다. TTT는 히든 스테이트를 머신러닝 모델로 대체해 데이터를 처리한다.
이승우 기자 leeswoo@hankyung.com
27일 정보기술(IT)업계에 따르면 마이크로소프트와 중국 칭화대 연구진은 트랜스포머를 개선한 ‘차등 트랜스포머(Differential Transformer)’에 관한 논문을 발표했다. 트랜스포머는 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 최신 딥러닝 모델이다. 오픈AI의 GPT 등 생성형 AI가 트랜스포머를 기반으로 개발됐다. 다만 트랜스포머는 결과물 예측이 어렵고 훈련에 상당한 시간과 비용이 소모되는 등 단점이 있다. 차등 트랜스포머는 입력과 가장 관련 높은 부분에 가중치를 두는 ‘차등 어텐션’ 메커니즘을 도입했다. 연구진은 “긴 콘텍스트 모델링과 핵심 정보 검색, 환각 현상 완화 등 주목할 만한 이점을 제공한다”고 설명했다.
트랜스포머를 대체하는 새로운 알고리즘도 나타나고 있다. 미국의 AI 스타트업 리퀴드AI는 액체신경망(LNN) 아키텍처 기반 ‘리퀴드 파운데이션 모델’을 이달 초 내놨다. LNN은 동적으로 조절할 수 있는 방정식을 이용해 기존 AI 모델보다 새로운 상황에 유연하게 대응할 수 있다.
지난 7월에는 미국 스탠퍼드대, UC샌디에이고, UC버클리, 메타 연구진이 TTT(Test Time Training) 모델 기반의 소형 언어모델을 발표했다. 트랜스포머는 데이터 처리 과정에서 내용을 기억하기 위해 ‘히든 스테이트’라는 메모리를 사용한다. 트랜스포머의 핵심 기능이지만 매번 이 메모리를 읽어 들이기 때문에 계산 부담이 크다. TTT는 히든 스테이트를 머신러닝 모델로 대체해 데이터를 처리한다.
이승우 기자 leeswoo@hankyung.com