차세대 트랜스포머 찾는다…새 AI 알고리즘 나오나

이승우 기자

입력2024.10.27 18:13 수정2024.10.28 00:52 지면A13

생성형 AI 토대 트랜스포머
훈련에 상당한 시간·비용 들어

업계, 더 똑똑한 AI 모델 찾기

생성형 인공지능(AI)의 토대가 되는 ‘트랜스포머’ 알고리즘을 개선하기 위한 시도가 이어지고 있다. 트랜스포머는 AI 역사상 최고의 발명품으로 손꼽히지만, 데이터 학습에 비용이 많이 들어가고 에너지 소비량도 상당하다. AI가 지속 가능한 기술로 자리 잡기 위해 트랜스포머보다 나은 기술이 필요하다는 지적이 나오는 이유다.

27일 정보기술(IT)업계에 따르면 마이크로소프트와 중국 칭화대 연구진은 트랜스포머를 개선한 ‘차등 트랜스포머(Differential Transformer)’에 관한 논문을 발표했다. 트랜스포머는 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 최신 딥러닝 모델이다. 오픈AI의 GPT 등 생성형 AI가 트랜스포머를 기반으로 개발됐다. 다만 트랜스포머는 결과물 예측이 어렵고 훈련에 상당한 시간과 비용이 소모되는 등 단점이 있다. 차등 트랜스포머는 입력과 가장 관련 높은 부분에 가중치를 두는 ‘차등 어텐션’ 메커니즘을 도입했다. 연구진은 “긴 콘텍스트 모델링과 핵심 정보 검색, 환각 현상 완화 등 주목할 만한 이점을 제공한다”고 설명했다.

트랜스포머를 대체하는 새로운 알고리즘도 나타나고 있다. 미국의 AI 스타트업 리퀴드AI는 액체신경망(LNN) 아키텍처 기반 ‘리퀴드 파운데이션 모델’을 이달 초 내놨다. LNN은 동적으로 조절할 수 있는 방정식을 이용해 기존 AI 모델보다 새로운 상황에 유연하게 대응할 수 있다.

지난 7월에는 미국 스탠퍼드대, UC샌디에이고, UC버클리, 메타 연구진이 TTT(Test Time Training) 모델 기반의 소형 언어모델을 발표했다. 트랜스포머는 데이터 처리 과정에서 내용을 기억하기 위해 ‘히든 스테이트’라는 메모리를 사용한다. 트랜스포머의 핵심 기능이지만 매번 이 메모리를 읽어 들이기 때문에 계산 부담이 크다. TTT는 히든 스테이트를 머신러닝 모델로 대체해 데이터를 처리한다.

이승우 기자 leeswoo@hankyung.com

관련 뉴스

1

모리스 창 "반도체 자유무역 죽었다"

세계 최대 파운드리(반도체 수탁생산) 업체인 대만 TSMC가 중국의 칩 설계 회사 소프고에 출하를 중단했다. TSMC가 생산한 칩이 중국 화웨이의 인공지능(AI) 칩에서 발견돼 미국의 수출 통제를 위반할 가능성이 불...
2

'AI 열풍' 빗겨간 국내 IT株…카카오 -36%·네이버 -26%

네이버, 카카오를 비롯한 국내 인공지능(AI) 기업이 제대로 된 혁신을 보여주지 못하면서 주가가 장기 하락세를 면치 못하고 있다. 각 산업에 걸쳐 ‘AI 대전환’이 핵심 키워드로 떠오른 것을 고...
3

'20만닉스' 컴백한 날…장부가치 밑으로 떨어진 삼전

삼성전자에 대한 외국인 매도세가 거세지면서 주가가 주당순자산가치(BPS)에 미치지 못하는 현상이 발생했다. 삼성전자의 시가총액이 모든 자산을 장부가치로 청산한 청산가치에도 못 미친다는 뜻이다. 반면 호실적을 발표한 ...