구글이 차세대 대규모언어모델(LLM) ‘제미나이’를 전격 공개했다. 이미지, 영상, 음성 등을 인식하고 추론하는 멀티모달 기능을 전면에 내세웠다.

구글은 5일(현지시간) 온라인 미디어 브리핑을 통해 제미나이 출시를 알렸다. 이 회사는 제미나이를 처음부터 멀티모달로 설계했다고 강조했다. 단순히 이미지를 파악하는 것을 넘어서 물건의 속성과 특징까지 파악해 이를 바탕으로 추론까지 해낸다는 설명이다. 오렌지와 쿠키를 보여주면 “오렌지가 쿠키보다 건강에 더 좋다”는 판단까지 내놓는 식이다. 순다르 피차이 구글 최고경영자(CEO)는 “문서와 코드, 오디오, 이미지, 동영상 등 다양한 유형의 정보를 일반화해 원활하게 이해하고 작동하며 결합할 수 있다”며 “지금까지 AI 모델 중 가장 유능하다”고 말했다.

구글은 오픈AI의 GPT보다 우수하다는 점을 수치로 비교하며 강조했다. 구글의 AI 개발 조직인 구글 딥마인드의 데미스 허사비스 CEO는 “수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가하는 대규모 멀티태스크 언어 이해(MMLU) 테스트에서 90.04%의 점수를 기록했다”며 “현존하는 LLM 중 처음으로 90%를 넘었다”고 말했다.

구글은 제미나이를 챗봇 ‘바드’와 구글 클라우드에 적용할 예정이다. 멀티모달 AI의 성능과 안전성 검증이 끝나면 교육, 의료, 유통, 제조 등 전 산업에 걸쳐 다양한 파급효과가 나타날 것으로 전망된다.

실리콘밸리=최진석 특파원 iskra@hankyung.com