네이버 생성AI, 한국어 성능 비교하니…오픈AI·구글 제쳤다

하이퍼클로바X, KMMLU 성능 비교
GPT-3.5 터보, 제미나이 프로 앞질러
한국 특화 문항에선 GPT-4보다 '위'
네이버, 영어 외 언어 AI 시장 공략
네이버의 초거대 인공지능(AI)이 한국 시장에 맞춘 성능 평가에서 오픈AI, 구글 등 해외 기업들의 생성 AI보다 뛰어난 성과를 냈다.

네이버 자회사인 네이버클라우드는 “자체 AI인 ‘하이퍼클로바X’가 AI 성능 평가 체계인 ‘KMMLU’에서 오픈AI의 ‘GPT-3.5 터보’, 구글 ‘제미나이 프로’보다 높은 종합 점수를 기록했다”고 27일 발표했다. KMMLU는 국내 오픈소스 언어모델 연구팀인 해례가 만든 AI 성능 검사다. 인문·사회·과학 등 45개 분야 3만5030개 문항을 물어 나온 답변으로 AI를 평가한다. 세계 공통으로 적용되는 지식 문항 80%, 한국 지리·법 등 국내 특화 문항 20%로 구성된다.국내 특화 문항에 한정했을 땐 하이퍼클로바X의 점수가 오픈AI의 최신 AI 모델인 ‘GPT-4’보다도 높게 나왔다. KMMLU는 한국어로 문제를 만든다. 오픈AI, 구글 등은 자체 AI 모델을 확인하기 위해 영어 기반 지표인 ‘MMLU’를 쓰고 있다. MMLU는 영미권 문화에에 기초한 문항이 많아 생성 AI의 한국 내 활용 능력을 입증하기엔 부족하다는 지적이 있어왔다.

네이버클라우드는 한국어에 강한 하이퍼클로바X 특성을 살려 다른 언어권용 AI 모델도 공급할 계획이다. 영어가 아닌 언어로 AI를 구축하려는 해외 시장에 맞춤형 AI를 공급하겠다는 전략이다. 성낙호 네이버클라우드 하이퍼스케일AI기술 총괄은 “성능, 보안을 고루 갖춘 주권(솔루션) AI를 도입하려는 움직임이 국내 산업계에서 나타나고 있다”며 “한국뿐 아니라 해외 시장 진출에도 속도를 낼 것”이라고 말했다.

이주현 기자 deep@hankyung.com