'AI 반격' 나선 구글…손으로 푼 수학문제, 첨삭지도까지
입력
수정
지면A8
구글 AI 야심작 '제미나이' 공개“가장 뛰어나면서 범용적인 모델이다.”
'생성 AI 2차 혁명' 시작됐다
멀티모달 기능, 오픈AI 앞서
피차이 "현존 AI 중 가장 유능"
구글은 5일(현지시간) 차세대 멀티모달 모델 ‘제미나이’를 공개하며 이같이 소개했다. 제미나이는 문서와 이미지, 오디오, 영상 등을 분석하고 추론할 수 있도록 설계된 첫 번째 모델이다. 언어 분석에 특화한 대규모언어모델(LLM)에 몇 가지 멀티모달 기능을 붙인 오픈AI의 GPT-4V보다 비언어 자료 이해도가 높다는 설명이다. 업계에선 ‘생성형 인공지능(AI) 2.0’ 시대가 시작됐다는 평가가 나온다. GPT-4V에 이어 제미나이까지 등장하며 AI의 파급력이 한층 더 커졌다는 게 전문가들의 공통된 분석이다.
○“이미지 분석도, 수학 문제도 척척”
구글은 이날 설명회에서 제미나이의 멀티모달 성능을 보여주는 데 상당한 시간을 할애했다. 이미지를 식별하는 수준을 넘어 추론과 응용까지 해낼 수 있다는 점이 눈에 띈다. 예를 들어 사용자가 종이에 오리를 그리자 완성 단계에 갈 때까지 실시간으로 무엇을 그리는지 추론했다. 오리가 완성된 뒤 사용자가 파란색으로 칠하자 “일반적인 오리 색상은 아니다”는 해석을 내놨다. 이후 사용자가 파란색 오리 인형을 보여주자 “내 생각보다 파란색 오리가 많은 것 같다”는 재치 있는 답변을 했다.또 손으로 ‘가위, 바위, 보’를 보여주자 이 게임을 인식했고 손으로 나비 날갯짓을 표현하면 이를 포착해 설명했다. 하늘색과 분홍색 실타래를 별다른 설명 없이 보여줘도 금방 인식하고 이를 통해 어떤 인형을 만들 수 있는지 그림을 제시했다. 사용자가 기타 그림을 그리자 기타 연주를 들려줬고 그 옆에 앰프 스피커를 그리자 “일렉트릭 기타가 됐다”며 록 음악으로 변경했다.수학 문제 해석 능력도 향상됐다. 사용자가 수학 문제를 손글씨로 푼 이미지를 보여주자 문제와 답을 인식한 뒤 맞는 부분과 틀린 부분을 구별했다. 또한 올바른 해답 풀이와 함께 틀린 부분을 보완할 수 있는 수학 문제를 새로 제시하는 등 맞춤형 수학 선생님 역할을 톡톡히 했다.
일라이 콜린스 구글 딥마인드 부사장은 “자연스러운 이미지와 음성, 영상의 이해부터 수학적 추론까지 제미나이 성능은 업계에서 LLM 연구개발 평가 시 주로 사용되는 32개 벤치마크 중 30개에서 기존의 최신 기술을 뛰어넘는 결과를 보여줬다”고 설명했다. 구글은 오픈AI의 최신 LLM인 GPT-4, 멀티모달 모델 GPT-4V와 제미나이를 직접 비교한 평가 수치를 공개했다.
○“업계 판도 바뀐다”
코딩 성능도 상당하다. 파이선, 자바 등 다양한 프로그래밍 언어로 작성된 코드를 이해해 설명하고 생성도 할 수 있다. 콜린스 부사장은 “다양한 언어를 다루고 복잡한 정보를 추론하는 능력으로 제미나이는 세계 최고 수준의 코딩 기반 모델”이라며 “제미나이를 통해 복잡한 수학과 컴퓨터 과학 문제를 해결하는 능력이 기존보다 두 배 넘게 뛰어난 알파코드2를 개발했다”고 설명했다.구글은 기존보다 훨씬 많이 학습해야 하는 제미나이를 훈련시키기 위해 새로운 텐서처리장치(TPU)인 TPU v5p도 개발했다. 이는 기존 TPU v4보다 2.8배 빠르게 LLM을 학습시킬 수 있다. TPU는 AI를 훈련하는 데 사용된다. 구글 클라우드는 새 TPU를 활용한 AI 하이퍼컴퓨터도 내놓을 예정이다.구글은 제미나이를 챗봇 바드 등 자사의 AI 생태계에 접목해 멀티모달 기능을 강화할 방침이다. 또한 100여 개 언어로 사용할 수 있게 해 세계 170개국에서 활용하도록 했다.
오픈AI와 구글이 멀티모달 기능을 본격적으로 구현함에 따라 글로벌 산업에 ‘생성 AI 2차 혁명’이 일어날 것이라는 전망이 나온다. 업계 관계자는 “그동안 텍스트 중심이던 생성 AI 기능이 이미지와 음성, 영상까지 확장됐다”며 “정보기술(IT)뿐 아니라 다양한 분야에 혁신적인 변화가 생길 것”이라고 말했다.
실리콘밸리=최진석 특파원 iskra@hankyung.com