[기고] 사람 뇌처럼 AI로 영상 통째로 이해

기고 / 전성민 가천대 경영학부 교수

한경 글로벌 AI스타트업 사례연구 (9) 트웰브랩스
트웰브랩스의 창업은 특별한 곳에서 시작했다. 2019년 트웰브랩스의 이재성 대표는 국군 사이버작전사령부에서 김성준 개발총괄이사와 이승준 기술총괄이사를 만났다. UC 버클리, 브라운 등 미국 명문대에서 공부한 경험을 공유하던 이들은 서로의 역량을 확인하고, AI 기술에 대한 공통의 관심사를 발견했다. 텍스트 분석을 하는 툴은 많지만 영상에 대한 툴은 매우 부족하다는 문제의식이었다.

모두가 민간인이 된 2021년 3월, 군대 월급 등 200만 원을 모아 트웰브랩스를 창립했다. 거대언어모델(LLM) 등 생성 AI가 공개되면서 그들은 영상 데이터 분석에 대한 가능성을 보고 함께 사업을 시작하기로 결심했다.트웰브랩스는 2021년 7월 컴퓨터 비전 분야 최고 권위의 학회인 국제컴퓨터비전학회(ICCV)에서 첫 성과를 냈다. 밸류 챌린지 2021의 영상 검색 트랙에서 우승했다. 트웰브랩스는 시각 정보뿐만 아니라 음성과 시간의 흐름 등 다양한 정보를 인식할 수 있는 AI 모델을 개발했다.

영상 데이터를 처리하기 위해서는 컴퓨팅 부담이 매우 크다. 영상 데이터는 텍스트나 이미지에 비해 시간적 정보까지 담고 있어 처리해야 할 데이터의 양이 훨씬 많다. 예를 들어 1초짜리 영상을 1초에 30 프레임으로 처리한다고 가정하면, 1분짜리 영상은 1800개의 프레임을 처리해야 한다. 여기에 생성 AI 트랜스포머 모델의 계산 복잡도까지 더해지면 영상 데이터 처리에 드는 시간과 비용은 기하급수적으로 증가한다. 동영상은 연속적인 이미지의 집합이다. 각 프레임 간의 시간적 관계를 파악하는 것이 중요하다. 영상을 이해하기 위해서는 시간 정보를 모델링하는 것이 핵심이며, 이를 위해 일반적인 이미지 인식 모델과는 다른 시간 정보에 특화된 기술이 있어야 한다.

트웰브랩스의 기술은 비전-언어 초거대 모델이라고 할 수 있다. 이는 기존의 컴퓨터 비전 모델과는 다르다. 트웰브랩스의 파운딩 솔루션 아키텍트인 ‘트래비스 쿠튀르’는 기존 영상 분석 방식의 한계를 ‘콘텐츠 vs 컨텍스트’라는 개념으로 설명한다. 트웰브랩스는 영상을 통째로 이해하고 처리하는 새로운 접근 방식을 제시했다. 영상을 작은 단위로 나눠 분석하는 기존 방식은 영상이 가진 전체적인 맥락을 놓칠 수 있기 때문이다.인간의 뇌가 끊임없이 방대한 양의 정보를 받고, 해석하고, 정리하는 것처럼 트웰브랩스의 멀티모달 AI는 다양한 정보를 통합해 의미를 파악한다. 영상 속 시간, 객체, 음성, 텍스트 등 다양한 요소를 벡터로 변환해 수학적으로 모델링하고, 이를 통해 행동 인식과 패턴 인식 등 다양한 작업을 수행한다.

트웰브랩스의 기술은 어떤 제목의 영상을 찾아주는 수준이 아니라 영상 내 특정 구간까지 구체화해 검색 결과를 제시해준다. 작년엔 미국 엔비디아의 투자도 유치했다. 엔비디아가 국내 AI 스타트업에 투자한 건 트웰브랩스가 최초다.