오픈AI, 논증에 특화된 AI 모델 'o3' 공개…AI, 인간 지적 수준 도달하나
입력
수정
챗GPT 개발사 오픈AI가 논증(reasoning) 능력에 특화한 새 생성형 인공지능(AI) 모델 ‘o3’를 공개했다. 수학과 과학 분야에서 직전 모델보다 성능을 대폭 끌어올린 게 특징이다. 오픈AI가 범용인공지능(AGI)에 근접한 모델을 내놓으며 더 똑똑한 AI를 개발하려는 빅테크 간 경쟁은 한층 더 격화될 전망이다.
오픈AI는 지난 20일 일부 개발자를 대상으로 미리보기 형태로 o3를 공개하고, 다음달 말부터 경량형 모델 ‘o3 미니’와 o3를 차례로 출시한다고 발표했다. o3는 직전 모델인 ‘o1’의 업그레이드 버전이다. 모델명을 o2를 건너뛴 이유에 대해서는 영국 통신사 O2에 대한 존중 차원이라고 설명했다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “o3는 많은 추론이 필요한 복잡한 작업을 수행할 수 있다”며 “우리는 이 모델을 다음 단계 AI의 시작으로 본다”고 말했다.o3는 프롬프트(명령어)를 받으면 응답 전 잠시 멈춰 자신의 논증을 정리한 뒤 가장 정확하다고 판단한 응답을 요약해 제공한다. 프로그래밍에 초점을 맞춘 벤치마크(기준지표) ‘SWE-벤치 베리파이드’에서 o1보다 22.8%포인트 높은 성능을 보였다. 코딩 실력 측정 지표인 ‘코드포스’에서는 2727점을 기록했다. 올해 미국 수학경시대회(AIME)에서는 단 한 문제만 틀린 96.7%의 점수를 기록해 o1(83%)보다 훨씬 높은 성적을 거뒀다. 박사 수준의 과학 문제를 푸는 GPQA 다이아몬드에서의 성적은 87.7%에 달했다.
오픈AI는 o3가 AGI에 근접한 최초의 모델이라고 주장했다. o3는 AGI 측정을 위한 벤치마크 ‘ARC-AGI’에서 75.7점을 기록해 o1(32점)과 비교해 성능이 대폭 향상된 것으로 나타났다. 특히 o3에 새로 도입된 ‘추론 시간 조정’ 기능을 활용하면 연산 시간을 낮음·중간·높음 등 3단계로 설정할 수 있는데, 연산 시간을 늘린 결과 점수는 87.5점까지 올라갔다. 이는 인간 평균(85점)을 능가하는 것으로 인간의 지적 수준에 도달했다는 게 오픈AI 측 주장이다.
다만 o3가 모든 분야에서 인간보다 뛰어나거나 비슷한 지적 능력을 갖췄다고 보기엔 무리가 있다. 특히 연산시간을 높이는 고성능 모드는 저렴한 저성능 모드(약 20달러)와 달리 비용이 최대 6000달러(약 840만원)까지 오른다.AI를 둘러싼 업체 간 경쟁은 이미 AGI 개발로 옮겨붙고 있다. 오픈AI는 구글이 새로운 논증 특화 모델 ‘제미나이 2.0 플래시 사고(thinking) 모드’를 공개한 지 하루 만에 o3를 공개했다. 두 회사간 전선이 AI 챗봇과 검색 엔진에서 AGI 개발로 넘어가고 있다는 분석이 나온다.
실리콘밸리=송영찬 특파원 0full@hankyung.com
오픈AI는 지난 20일 일부 개발자를 대상으로 미리보기 형태로 o3를 공개하고, 다음달 말부터 경량형 모델 ‘o3 미니’와 o3를 차례로 출시한다고 발표했다. o3는 직전 모델인 ‘o1’의 업그레이드 버전이다. 모델명을 o2를 건너뛴 이유에 대해서는 영국 통신사 O2에 대한 존중 차원이라고 설명했다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “o3는 많은 추론이 필요한 복잡한 작업을 수행할 수 있다”며 “우리는 이 모델을 다음 단계 AI의 시작으로 본다”고 말했다.o3는 프롬프트(명령어)를 받으면 응답 전 잠시 멈춰 자신의 논증을 정리한 뒤 가장 정확하다고 판단한 응답을 요약해 제공한다. 프로그래밍에 초점을 맞춘 벤치마크(기준지표) ‘SWE-벤치 베리파이드’에서 o1보다 22.8%포인트 높은 성능을 보였다. 코딩 실력 측정 지표인 ‘코드포스’에서는 2727점을 기록했다. 올해 미국 수학경시대회(AIME)에서는 단 한 문제만 틀린 96.7%의 점수를 기록해 o1(83%)보다 훨씬 높은 성적을 거뒀다. 박사 수준의 과학 문제를 푸는 GPQA 다이아몬드에서의 성적은 87.7%에 달했다.
오픈AI는 o3가 AGI에 근접한 최초의 모델이라고 주장했다. o3는 AGI 측정을 위한 벤치마크 ‘ARC-AGI’에서 75.7점을 기록해 o1(32점)과 비교해 성능이 대폭 향상된 것으로 나타났다. 특히 o3에 새로 도입된 ‘추론 시간 조정’ 기능을 활용하면 연산 시간을 낮음·중간·높음 등 3단계로 설정할 수 있는데, 연산 시간을 늘린 결과 점수는 87.5점까지 올라갔다. 이는 인간 평균(85점)을 능가하는 것으로 인간의 지적 수준에 도달했다는 게 오픈AI 측 주장이다.
다만 o3가 모든 분야에서 인간보다 뛰어나거나 비슷한 지적 능력을 갖췄다고 보기엔 무리가 있다. 특히 연산시간을 높이는 고성능 모드는 저렴한 저성능 모드(약 20달러)와 달리 비용이 최대 6000달러(약 840만원)까지 오른다.AI를 둘러싼 업체 간 경쟁은 이미 AGI 개발로 옮겨붙고 있다. 오픈AI는 구글이 새로운 논증 특화 모델 ‘제미나이 2.0 플래시 사고(thinking) 모드’를 공개한 지 하루 만에 o3를 공개했다. 두 회사간 전선이 AI 챗봇과 검색 엔진에서 AGI 개발로 넘어가고 있다는 분석이 나온다.
실리콘밸리=송영찬 특파원 0full@hankyung.com