네이버랩스 '공간지능 기술' 세계 1위…구글·애플·메타 제쳤다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
유럽컴퓨터비전학회 두 부문 우승
이미지를 3D로 재구성하는
AI 기술 도구 '마스터' 선보여
"로봇·자율주행 핵심 경쟁력
12개 참가팀 중 압도적 격차 1위"
이미지를 3D로 재구성하는
AI 기술 도구 '마스터' 선보여
"로봇·자율주행 핵심 경쟁력
12개 참가팀 중 압도적 격차 1위"
네이버의 기술 연구 전문 자회사 네이버랩스가 ‘공간지능 기술’로 글로벌 시장에서 1위 자리에 올랐다. 구글, 애플, 메타 등 내로라하는 빅테크를 제치고 기술력을 입증한 것이다. 업계에서도 “이변이 일어났다”며 네이버랩스의 기술을 주시하는 분위기다.
네이버랩스가 1위를 기록한 분야는 정밀지도 등이 없는 상황에서도 얼마나 정확하게 측위가 가능한지를 겨루는 ‘무(無)지도 환경 속 시각적 재측위’, 이미지 내 물체의 3차원(3D) 회전과 위치를 얼마나 정확히 추정하는지 살피는 ‘BOP(6차원 객체 위치 추정) 챌린지’ 등이다.
지도 없는 환경의 시각적 재측위 챌린지에선 정밀지도가 없는 상황에서 얼마나 정확하게 측위가 가능한지를 겨뤘다. 산업계 곳곳에서는 지도 없이 측위하는 기술의 중요성이 커지고 있다. 시각적 재측위는 통상 사전에 생성된 3D·고정밀(HD) 지도를 기반으로 측위를 하지만, 재난 또는 공사 현장 등 지도를 생성하거나 미리 준비할 수 없는 상황도 있기 때문이다.
네이버랩스는 해당 챌린지에 이미지를 3D로 재구성하는 AI 기술 도구 ‘마스터(MASt3R)’를 선보였다. 마스터는 2차원(2D) 이미지를 3D로 재구성해 복잡한 환경을 이해하고 기하학 정보를 추출하는 게 주요 역할이다. 정밀지도가 없는 상황에서도 단 한 장의 기준 영상에 대한 위치값을 가장 정확히 추정했다는 평가를 받았다. 네이버랩스 측은 “구글, 애플, 메타 등 12개 참가팀 중 압도적인 격차로 1위에 올랐다”고 강조했다.
BOP 챌린지에서는 이미지 내에 있는 물체들의 3D 회전과 위치를 얼마나 정확히 추정하는지를 두고 경쟁했다. 스마트폰과 로봇이 주변 사물의 3D 위치를 정확히 인식하는 것은 중요 기술로 꼽힌다. 네이버랩스가 이 부문에 제출한 기술 모델은 카메라 이미지만으로도 물체의 위치를 정확하게 측위하고, 가장 빠르게 처리할 수 있다는 평가를 받았다. 해당 물체는 미리 학습하지 않은, 처음 보는 물체였다.
크로코를 로봇에 적용하면 사람처럼 공간을 탐색할 수 있게 하고, 복잡한 상황이나 환경 변화도 빠르게 적응할 수 있다. 사람이 두 눈으로 3D를 인식하는 원리를 로봇 AI에 적용한 모델인 셈이다. 마틴 휴멘버거 네이버랩스 유럽연구소장은 “제어되지 않은 예상 밖 환경에서 로봇이 자율적으로 작업을 수행하는 것은 굉장히 어렵다”며 “이 한계를 돌파하는 방법이 파운데이션 모델”이라고 설명했다.
크로코는 다양한 AI 도구를 만들 수 있는 게 장점으로 꼽힌다. 모델을 미세조정하면서 활용처를 확장할 수 있다는 얘기다. 네이버랩스에선 크로코를 기반으로 마스터 등 다양한 프로젝트를 진행 중이다. 한 번의 명령으로 2D 이미지를 3D로 만들어주는 AI 도구인 ‘더스터(DUSt3R)’도 있다. 더스터는 몇 장의 사진, 또는 단 한 장의 사진을 입력해도 몇 초 만에 공간을 3D로 재구성하고 기하학 정보까지 추출한다.
석상옥 네이버랩스 대표는 “AI에 이어 미래 변화를 만들어낼 공간지능은 네이버랩스 출범 이후 로봇과 자율주행 기술을 발전시키며 꾸준히 준비해 온 분야이자 핵심 경쟁력”이라며 “글로벌 사업 확장을 위해 연구개발에 더욱 매진하겠다”고 말했다.
정지은 기자 jeong@hankyung.com
○정확성·속도 높은 평가
네이버랩스는 지난달 28일 이탈리아 밀라노에서 열린 ‘2024 유럽컴퓨터비전학회(ECCV)’의 두 부문에서 1위를 차지했다. ECCV는 이미지 및 영상 등 컴퓨터 비전 분야에 특화한 최신 인공지능(AI) 연구 성과를 발표하고 새로운 기술 화두를 제시하는 세계적 권위의 학회로, 2년마다 열린다.네이버랩스가 1위를 기록한 분야는 정밀지도 등이 없는 상황에서도 얼마나 정확하게 측위가 가능한지를 겨루는 ‘무(無)지도 환경 속 시각적 재측위’, 이미지 내 물체의 3차원(3D) 회전과 위치를 얼마나 정확히 추정하는지 살피는 ‘BOP(6차원 객체 위치 추정) 챌린지’ 등이다.
지도 없는 환경의 시각적 재측위 챌린지에선 정밀지도가 없는 상황에서 얼마나 정확하게 측위가 가능한지를 겨뤘다. 산업계 곳곳에서는 지도 없이 측위하는 기술의 중요성이 커지고 있다. 시각적 재측위는 통상 사전에 생성된 3D·고정밀(HD) 지도를 기반으로 측위를 하지만, 재난 또는 공사 현장 등 지도를 생성하거나 미리 준비할 수 없는 상황도 있기 때문이다.
네이버랩스는 해당 챌린지에 이미지를 3D로 재구성하는 AI 기술 도구 ‘마스터(MASt3R)’를 선보였다. 마스터는 2차원(2D) 이미지를 3D로 재구성해 복잡한 환경을 이해하고 기하학 정보를 추출하는 게 주요 역할이다. 정밀지도가 없는 상황에서도 단 한 장의 기준 영상에 대한 위치값을 가장 정확히 추정했다는 평가를 받았다. 네이버랩스 측은 “구글, 애플, 메타 등 12개 참가팀 중 압도적인 격차로 1위에 올랐다”고 강조했다.
BOP 챌린지에서는 이미지 내에 있는 물체들의 3D 회전과 위치를 얼마나 정확히 추정하는지를 두고 경쟁했다. 스마트폰과 로봇이 주변 사물의 3D 위치를 정확히 인식하는 것은 중요 기술로 꼽힌다. 네이버랩스가 이 부문에 제출한 기술 모델은 카메라 이미지만으로도 물체의 위치를 정확하게 측위하고, 가장 빠르게 처리할 수 있다는 평가를 받았다. 해당 물체는 미리 학습하지 않은, 처음 보는 물체였다.
○로봇을 위한 AI 기술에 집중
네이버랩스가 이번 학회에서 성과를 낸 두 도구는 모두 3D 비전 파운데이션 모델 ‘크로코’를 기반으로 제작됐다. 크로코는 네이버랩스 유럽이 2021년부터 개발해 온 ‘로봇을 위한’ 비전 파운데이션 모델이다. 파운데이션 모델은 방대한 양의 데이터를 AI 스스로 규칙을 찾아 학습한 모델을 의미한다. 네이버의 ‘하이퍼클로바X’, 오픈AI의 ‘GPT-4’ 등 대규모언어모델(LLM)이 언어 파운데이션 모델이라면, 크로코는 비전 파운데이션 모델로 구분된다. 네이버랩스 측은 “LLM이 수많은 문장 데이터를 학습하듯이 크로코는 같은 장면을 다른 시점으로 촬영한 이미지들을 학습해 3D 세계를 이해한다”고 말했다.크로코를 로봇에 적용하면 사람처럼 공간을 탐색할 수 있게 하고, 복잡한 상황이나 환경 변화도 빠르게 적응할 수 있다. 사람이 두 눈으로 3D를 인식하는 원리를 로봇 AI에 적용한 모델인 셈이다. 마틴 휴멘버거 네이버랩스 유럽연구소장은 “제어되지 않은 예상 밖 환경에서 로봇이 자율적으로 작업을 수행하는 것은 굉장히 어렵다”며 “이 한계를 돌파하는 방법이 파운데이션 모델”이라고 설명했다.
크로코는 다양한 AI 도구를 만들 수 있는 게 장점으로 꼽힌다. 모델을 미세조정하면서 활용처를 확장할 수 있다는 얘기다. 네이버랩스에선 크로코를 기반으로 마스터 등 다양한 프로젝트를 진행 중이다. 한 번의 명령으로 2D 이미지를 3D로 만들어주는 AI 도구인 ‘더스터(DUSt3R)’도 있다. 더스터는 몇 장의 사진, 또는 단 한 장의 사진을 입력해도 몇 초 만에 공간을 3D로 재구성하고 기하학 정보까지 추출한다.
석상옥 네이버랩스 대표는 “AI에 이어 미래 변화를 만들어낼 공간지능은 네이버랩스 출범 이후 로봇과 자율주행 기술을 발전시키며 꾸준히 준비해 온 분야이자 핵심 경쟁력”이라며 “글로벌 사업 확장을 위해 연구개발에 더욱 매진하겠다”고 말했다.
정지은 기자 jeong@hankyung.com