"무슨 기술이길래"…'엔비디아·삼성' 사로잡은 한국 스타트업 [긱스]
입력
수정
생성 AI 스타트업을 우군으로 포섭하려는 빅테크들 움직임이 매섭습니다. 최근 엔비디아 투자금을 국내 최초로 유치한 스타트업 트웰브랩스는 영상 분석 AI를 만드는 업체입니다. 한경 긱스(Geeks)가 이재성 트웰브랩스 대표에게 해당 분야 사업의 잠재력과 가능성, 빅테크들의 '속내'와 협업 방향을 물었습니다. AI 패권 다툼에서 스타트업의 중요성은 더 커진다는 설명입니다.
빅테크의 생성 AI 투자 경쟁이 가속하며, 글로벌 자금이 각국 스타트업에 몰리는 추세다. 올해만 미국의 인플렉션AI 엔트로픽 허깅페이스, 캐나다 코히어, 이스라엘 AI21랩스 등이 아마존 구글 마이크로소프트(MS)의 선택을 받았다. 지난달 국내서도 처음으로 엔비디아가 AI 스타트업에 투자한 사례가 나왔다. ▶본지 10월 25일자 A1, 5면 참조
엔비디아의 첫 투자를 포함해 인텔, 삼성넥스트의 자금을 유치한 스타트업 트웰브랩스는 영상을 이해하는 초거대 AI를 만든다. 글을 읽고 쓰는 GPT 시리즈의 영상 버전인 셈이다. 업력 4년 차 업체가 전략적투자자(SI)들의 인정을 받은 배경엔 독특한 서비스 영역이 있다. 이재성 트웰브랩스 대표는 한국경제신문과의 인터뷰에서 “AI 업계 주력으로 떠오른 텍스트 기반 거대언어모델(LLM)과는 달리 영상 분야는 아직 대기업이 100억원, 1000억원을 쏟아붓는다고 해결되지 않는 미개척 영역”이라며 “제대로 된 기술 하나가 판도를 바꿀 수 있기 때문에 스타트업이 더 큰 역할을 할 수 있다”고 강조했다.
"AI 확산 빠르다"…공부보다 창업 택한 병사들
이 대표는 초등학교 5학년 때 미국으로 이민 갔다. 군복무가 인생 전환점이었다. 당시 병역 이행을 피할 수 있었지만, 부모로부터 한국인 정체성에 대해 강하게 교육받으며 입대를 택했다. 미 UC버클리에서 컴퓨터공학을 전공했기에, 국방부 사이버작전사령부에 자원했다. 이 대표는 “면접을 거치다 보니 부대 내에서 컴퓨터에 관심 있는 이들을 쉽게 만날 수 있었다”고 했다. 공동창업자인 이승준 트웰브랩스 최고기술책임자(CTO), 김성준 개발총괄 이사는 2019년 당시 이 대표의 분대원이었다. AI 논문을 함께 읽으며 가까워진 사이다.언제나 병사들 고민은 전역 후였다. 이 대표는 “AI가 대세가 되며 분대원이 모여 석·박사 과정을 공부할지, 산업계로 바로 뛰어들지를 토의했다”며 “공부를 더 하면 최소 5년은 현장의 기회를 놓칠 거라 생각해 창업을 택했다”고 소회했다. 영상 AI 시장에 기회가 있다고 판단했지만, 당시엔 기초적인 형태의 논문밖에 없었다. “학부생 출신 딥러닝 개발자 셋이 모여 생고생했다”는 그와 후임들은 결국 2021년 7월 국제컴퓨터비전학회(ICCV)에서 첫 성과를 냈다. 전역과 함께 두 명의 공동창업자가 추가로 합류하며 회사의 형태도 갖춘 시기다.ICCV에서 열렸던 기술 경연 대회에는 텐센트, 카카오브레인, 미 컬럼비아대 연구팀이 경쟁 상대였다. 트웰브랩스는 이 대회에서 영상 검색 트랙 1위를 차지했다. 본사는 한국에 뒀지만, 설립 직후부터 실리콘밸리에 활동했던 트웰브랩스는 같은 해 글로벌 액셀러레이터들의 수혜도 입었다. 우버와 센드버드 등을 배출했던 테크스타즈 프로그램을 참여하며 특히 미국 내 네트워크를 늘렸다. 이 대표는 “AI 연구자, B2B(기업간거래) 서비스형 소프트웨어(SaaS)에 노하우가 있는 인물, 혁신적 창업가 등 크게 3가지 영역의 사람을 집중적으로 만나고자 했다”고 말했다.
영상 내 대화 찾고, 설명문 만드는 AI 등장
새로운 도전 분야에 현지 인사들과 투자사들이 관심을 보였다. 세계적 AI 석학으로 꼽히는 페이페이 리 스탠퍼드대 교수, 오픈 AI 최대 경쟁사인 코히어의 에이단 고메즈 대표 등이 자문단으로 합류했다. 지난해 3월 시드(초기) 투자 당시에도 노션과 디스코드에 투자했던 인덱스벤처스, 우버 공동 창업자 가렛 캠프의 엑스파벤처스 등 주로 미 유명 벤처캐피털(VC)의 자금을 받았다. 이 대표는 이들을 직접 찾아 사업 내용을 설명하고 지원을 요청했다. 그는 “사업을 시작할 때부터 기존 자연어처리(NLP) 및 컴퓨터 비전 기술의 한계점이 명확하고, 굉장히 지능적이지 못했다고 생각했다”며 “영상 내 시각적, 청각적 정보와 의미를 인간의 언어와 연계할 수 있는 초거대 AI 모델 개발이 필요했다”고 말했다.컴퓨터 비전은 이미지나 영상에서 정보를 추출하는 작업을 총칭한다. 최근엔 딥러닝 기술과 융합되며 AI 분야의 한 갈래로 표현되기도 하지만, 이전부터 정보처리장치의 ‘눈’ 역할을 해왔다. 주로 이미지나 영상을 픽셀 단위로 쪼갠 뒤, 미리 정의해놓은 사물의 데이터 값과 유사도를 판단해(템플릿 매칭) 객체를 인식하는 형태를 취했다. 트웰브랩스는 이런 사전 분류 작업을 없앴다. 영상의 내용과 맥락을 함축하는 벡터값을 생성하고 이를 바탕으로 검색, 요약 등 문제를 통합해 풀어내는 구조를 짰다. 마치 사람이 영상을 보고 직관적으로 판단하는 사고 체계를 구현했다는 설명이다. 이 대표는 “‘영상 언어 정렬(Video Language Alignment)’ 연구를 통해 단순 객체 인식뿐만 아닌, 모든 영상 이해 문제를 하나의 모델로 풀어내는 것이 새 패러다임”이라고 말했다.지난 5월 베타 서비스가 출시된 트웰브랩스의 AI 모델 ‘페가수스’는 지난달 정식 공개됐다. 페가수스는 탐색과 분석 기능에 특화돼 있다. 기억나는 영상 장면을 문장으로 묘사해 찾고, 영상 내 로고나 특정 텍스트가 표시된 장면을 추출할 수도 있다. 영상을 설명하는 문장을 생성하고, ‘하이라이트 영상’을 만들어달라고 요청도 가능하다. 유튜브나 틱톡 등 영상 플랫폼과 크리에이터, 광고 영상을 만드는 기업체 등이 주요 타깃이다. 온라인 교육 플랫폼, 브랜드 광고 효과를 분석하는 업체도 제품을 활용한다.
AI 반도체 '파트너' 된 엔비디아·인텔
영상을 이해하는 AI는 텍스트 기반 LLM을 제작하는 기업들도 최근 관심을 가지기 시작했다. 이른바 대규모멀티모달모델(LMM)의 대두다. MS가 투자한 오픈AI, 구글 등은 LMM 연구에 속도를 더해가고 있다. 이들과 경쟁 구도가 펼쳐질 수 있다는 관측에 대해 이 대표는 “빅테크와 다투기보단, 업체들의 파트너로서 거대언어모델(LLM)에 눈을 달아주고 싶다”고 말했다. “LLM의 1인자가 완전하게 정해지지 않은 만큼, 내후년까진 경쟁이 치열할 것으로 본다”며 “이들 LLM과 트웰브랩스의 영상 AI 모델의 호환성을 확보하려 한다”고도 덧붙였다.엔비디아, 인텔 등 새 투자사들과의 협력도 늘어날 전망이다. 공통적으로 AI 반도체를 만드는 업체다. 영상 AI 모델은 필연적으로 고성능 인프라가 바탕이 된다. 일반적인 정보처리장치론 연산에 부하가 걸리기 십상이다. 이 대표는 “트웰브랩스의 목표는 수백 페타바이트(PB)급의 영상 자산 관리 능력”이라며 “GPU 인프라 확보는 반드시 필요하다”고 말했다. 트웰브랩스 같은 스타트업과의 협력은 이들 입장에서도 잠재 고객군을 추가로 포섭하는 행위다. 특히나 엔비디아는 최근 LLM부터 응용 애플리케이션까지 AI 관련 파이프라인을 종합적으로 확보하려는 움직임을 보인다. 이들의 스타트업 ‘우군’은 점차 늘어나는 추세다.
이 대표는 ‘AI 주권’도 언급했다. 새롭게 출시되는 AI 서비스는 어쩔 수 없이 해당 국가의 언어적·문화적 특성을 반영한다는 것이다. 종래엔 ‘AI 강대국’의 문화적 종속까지도 초래할 수 있단 것이 그의 관측이다. 이 대표는 미국 현지에 한국식 ‘AI 스탠더드’를 적용하는 것이 목표라고 했다. 트웰브랩스는 미국을 중심으로 영업망을 펼치고 있지만, 기술진은 대부분 한국에 있다. 그는 “미국 현지에서부터 한국인 창업가의 인식을 바꾼 센드버드, 몰로코와 같은 스타트업이 계속 등장해야 한다”며 “기술 변화의 중심인 실리콘밸리에서 토종 AI를 심어 글로벌 영향력을 확대하겠다”고 말했다.
이시은 기자 see@hankyung.com