"추론능력 탁월"…오픈AI, 새 AI모델 공개

96.7…수학 경시대회서 한 문제 틀리고 거둔 정답률

논증에 특화 된 'o3' 내년 출시
벤치마크 압도… AGI에 한발 더
인공지능(AI) 챗봇 ‘챗GPT’ 개발사인 오픈AI가 논증(reasoning) 능력에 특화한 새 생성형 인공지능(AI) 모델 ‘o3’를 공개했다. 오픈AI가 범용인공지능(AGI)에 근접한 모델을 내놓으면서 더 똑똑한 AI를 개발하려는 빅테크 간 경쟁은 격화할 전망이다.

오픈AI는 지난 20일 일부 개발자를 대상으로 미리 이용하기 형태로 o3를 공개했다. 다음달부터 경량형 모델 ‘o3 미니’와 o3를 차례로 출시한다고 발표했다. o3는 이전 모델인 ‘o1’의 업그레이드 버전이다. 모델명 o2를 건너뛴 이유는 영국 통신사 O2가 있기 때문이다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “o3는 많은 추론이 필요한 복잡한 작업을 할 수 있다”며 “우리는 이 모델을 다음 단계 AI의 시작으로 본다”고 말했다.o3는 이용자의 프롬프트(명령어)를 받으면 자신의 논증을 정리한 뒤 가장 정확하다고 판단한 응답을 요약해 제공한다. 프로그램 개발 맞춤형 벤치마크(기준지표) ‘SWE-벤치 베리파이드’에서 o1보다 22.8%포인트 높은 성능을 보였다. 컴퓨터 코딩 실력 측정 지표인 ‘코드포스’에서는 2727점을 기록했다. 올해 미국 수학경시대회(AIME)에선 단 한 문제만 틀린 96.7%의 정답률을 기록해 o1(83%)보다 훨씬 높은 성적을 거뒀다.

오픈AI는 o3가 AGI에 근접한 최초의 모델이라고 주장했다. o3는 AGI 측정을 위한 벤치마크 ‘ARC-AGI’에서 75.7점을 기록해 o1(32점)보다 성능이 대폭 향상된 것으로 나타났다. o3에 새로 도입된 ‘추론 시간 조정’ 기능을 활용하면 연산 시간을 낮음·중간·높음 등 3단계로 설정할 수 있는데, 연산 시간을 늘린 결과 점수는 87.5점까지 올라갔다. 인간 평균(85점)을 능가하는 지적 수준에 도달했다는 게 오픈AI 측 주장이다. 다만 o3가 모든 분야에서 인간보다 뛰어나거나 비슷한 지적 능력을 갖췄다고 보기엔 무리가 있다.

AI를 둘러싼 업체 간 경쟁은 이미 AGI 개발로 옮겨붙고 있다. 오픈AI는 구글이 새로운 논증 특화 모델 ‘제미나이 2.0 플래시 사고(thinking) 모드’를 선보인 지 하루 만에 o3를 공개했다.

실리콘밸리=송영찬 특파원 0full@hankyung.com