두 달 새 15%→65%…챗GPT 시대, 잘나가는 AI 회사 전략은?

세계 최대 벤처캐피털(VC) 중 하나인 세쿼이아 캐피털이 최근 흥미로운 보고서를 내놨습니다. 챗GPT 열풍이 분 이후 회사들이 거대언어모델(LLM)을 어떻게 쓰고 있는지에 대한 현황 보고입니다. 포트폴리오 회사 중 33곳을 대상으로 조사한 결과인데요. 불과 두 달 새 LLM을 적용한 앱을 만든 회사의 비중이 15%에서 65%로 급등했다고 합니다. 이창수 올거나이즈 대표가 한경 긱스(Geeks)에 이 보고서에 대한 분석과 함께 잘나가는 AI 회사의 기술 전략을 전해왔습니다.

미국 실리콘밸리의 대형 벤처캐피털(VC)인 세쿼이아 캐피털이 거대언어모델(Large Language Model) 스택(Stack) 리포트(LLM 스택 리포트)를 이달 발표했다. 1972년 세워진 세쿼이아 캐피털은 지난해 기준 850억달러의 운용자산(AUM)을 보유했다. 애플, 구글, 엔비디아를 초기에 알아보고 투자한 곳으로 잘 알려져 있다.

이 회사는 데이터 프라이버시, 인공지능(AI) 등 주목할 만한 기술 트렌드에 대해 리포트를 발행하며 어젠다를 주도하는데, 지난해 9월에는 생성형 AI 보고서에 GPT-3를 일부 사용해 화제가 되기도 했다. 생성형 AI 보고서는 세쿼이아 캐피털이 왜 지금 AI에 투자하는가에 대한 설득이었다면, 이번 LLM 스택 리포트는 챗GPT 이후 실제로 기업들이 어떻게 LLM을 쓰고 있는가에 대한 현황 보고다. 4월부터 6월까지 2개월간 투자한 33개 기업을 대상으로 조사했다고 한다.

올거나이즈도 LLM을 활용해 기업 내 문서에서 정보를 빠르게 찾는 AI 솔루션을 제공하다보니 이번 리포트에 나온 내용을 현장에서 생생하게 맞닥뜨리고 있어 반가웠다. 우리나라 기업도 AI 프로젝트 진행 전 참고할 만한 사항과 기술 트렌드를 좀 더 쉽게 정리해 보고자 한다.

오픈AI의 GPT 독주, 엔트로픽이 따라잡을 수 있을까

조사 내용을 요약하면 다음과 같다. 1)조사 대상 기업의 65%는 챗봇과 같은 LLM 적용 어플리케이션을 제작했으며, 94%는 LLM API(응용프로그램 인터페이스)를 사용중이다. 2) 이 중 91%는 오픈 AI의 GPT, 15%는 앤트로픽(Anthropic)을 사용하고 있다. 3) 응답 기업 중 88%는 벡터 데이터베이스(DB) 등 검색 메커니즘이 LLM 스택의 핵심이 될 거라고 본다. 세 가지 내용을 좀 더 자세히 들여다 보자.

두 달 새 15%→65%…챗GPT 시대, 잘나가는 AI 회사 전략은? [긱스]

첫 번째, 세쿼이아 캐피털이 조사를 시작한 4월에는 LLM 적용 앱을 제작한 기업이 15%에 불과했는데, 두 달만에 65%로 늘었다. 영업(Gong), 법률(Ironclad, Harvey), 회계(Pilot), 식료품 쇼핑(Instacart), 소비자 결제(Klarna), 여행 계획(Airbnb) 등 투자한 기업 대부분이 적용했다고 한다.

두 번째, 기업은 대부분 LLM을 자체 개발하기보다는 공개된 API를 사용하고 있는데, 이 중 앤트로픽은 올 초 챗GPT가 폭발적인 인기를 끌 때 구글이 대항마격으로 3억달러를 추가 투자해 화제가 된 곳이다. 그러나 GPT 생태계가 플러그인, AI 모델 스토어 등으로 빠르게 확장 중이라 당분간은 오픈AI의 아성을 무너뜨리기 어려울 것 같다. UC버클리의 하오 장 조교수팀 일반인들이 참여해 챗봇 결과를 평가하는 이른바 ‘챗봇 아레나’를 공개했는데, 여기서도 오픈AI의 GPT-4가 1등을 차지했다고 한다.

세 번째, 88%나 되는 기업이 LLM 스택의 핵심이라고 꼽은 벡터 DB는 기업이 AI 결과물의 신뢰도를 높이기 위해 고민한 결과로 볼 수 있다. 챗GPT의 ‘환각(Hallucination)’ 현상은 ‘세종대왕 맥북 던짐 사건' 등의 밈(memeㆍ유행 콘텐츠)이 생길 정도가 되었다. 기업의 AI 프로젝트에서는 ‘환각'을 줄이고 정확도를 높이는 것이 필수인데, 벡터 DB는 어떤 역할을 하고 있는 것일까?

벡터 DB를 주목하라

벡터 데이터베이스는 방대한 양의 고차원 데이터를 벡터 형태로 최적화해서 보관하고 불러내는 것에 특화된 DB다. 벡터는 개체를 설명하는 수학적 데이터인데, 숫자 뭉치라고 이해하면 된다. 글, 이미지, 영상 모두 다 벡터로 바꿀 수 있다. 이렇게 숫자 뭉치를 보관하고, 빠르게 불러낼 수 있으면 무엇이 좋을까?

첫째, 유사한 것들을 빠르게 찾을 수 있고(영상을 하나씩 뒤져가며 정답을 찾는 것보다 숫자 뭉치가 비슷한 것을 찾는 게 더 빠름) 둘째, 제한된 텍스트를 적게 소모하면서 관련된 추가 컨텍스트를 더 풍부하게 찾을 수 있게 된다.

챗GPT를 써본 사람이라면 알겠지만, 질문 내용이 4000토큰으로 제한이 되고 후속 질문 또한 길어지면 맥락을 잊고 엉뚱한 답이 나오게 된다. 벡터 DB는 챗GPT에 외장 메모리를 달아주는 것이라고 보면 된다. 인간이 전두엽에 장기 기억을 저장하는 것처럼, 벡터 DB로 LLM을 더 확장해서 사용할 수 있게 되는 것이다. LLM이 추론을 할 때 관련 컨텍스트, 벡터 임베딩에 연결된 오리지널 콘텐츠 등에서 검색을 하게 되면 결과의 품질이 올라가고 환각이 줄어들게 된다. 벡터 DB는 이미 훈련이 끝난 LLM(예: 2021년 9월까지의 데이터로 훈련된 챗GPT)과 달리 최신 데이터도 포함해 답변 정확도가 올라간다.

LLM 스택 리포트의 조사 대상 기업은 파인콘(Pinecone), 크로마(Chroma), 밀버스(Milvus) 등의 벡터 DB 솔루션을 사용한다고 대답했다. 이 중 파인콘은 지난 4월 시리즈B 펀딩에서 7억5000만달러(약 1조원)의 기업 가치로 1억달러 투자를 유치했다. 기업이 LLM을 점점 더 많이 사용하게 될수록 벡터 DB의 수요도 늘어나게 돼 투자 열기가 뜨거워졌다.

맞춤형 AI 모델 원하는 기업, 과제는?

세쿼이아 캐피털 리포트의 후반부는 기업이 맞춤형 AI 모델을 어떻게 구축해야 할지에 대한 내용이 주를 이룬다. 챗GPT의 성능에 모두가 환호했지만, 기업이 원하는 건 전문 용어 및 약어를 알아듣는 AI 모델이라는 것이다. 모든 기업은 내부 개발자 문서, 제품 설명서, 취업 규칙 등 자신만의 언어를 이해하는 맞춤형 모델을 사용하기를 원한다.

리포트는 맞춤형 AI 언어 모델을 만드는 데는 세 가지 방법이 있다고 소개한다.

최고 난이도: 기업 데이터로 처음부터 구축하고 학습
중간 난이도: 베이스 모델을 파인 튜닝
낮은 난이도: 기존 LLM API 사용+관련 컨텍스트 검색

위에서 말한 벡터 DB의 중요성이 여기서 다시 부각된다. 대부분의 기업이 현실적으로 맞춤형 AI 언어 모델을 사용하려면 낮은 난이도 수준에서 가능하다. 기존 LLM의 API는 정해져 있으니, 벡터 DB 등 검색 메커니즘을 어떻게 활용하느냐에 따라 성능이 엄청나게 차이나게 된다.

현재 올거나이즈에서 알리 LLM Ops를 통해 제공하는 서비스도 사전 학습된 모델을 사용하면서 관련 컨텍스트를 검색하는 것이다. 오픈AI나 앤트로픽 등 LLM API 제공 업체는 계속해서 입출력 토큰의 길이를 늘려갈 것이다. 그렇다면 관련 컨텍스트를 풍부하고 빠르게 검색할 수 있거나, 기업에 맞춰 파인 튜닝(미세 조정)을 잘 해낼 수 있는 기업이 경쟁에서 살아남게 된다. 올거나이즈는 금융, 통신, 제조, 공공기관 등 다양한 영역의 고객사를 확보하고 지난 6년 간 실무 현장의 목소리를 솔루션에 담아왔다.

올거나이즈의 알리 LLM Ops, 기업이 다양한 LLM을 자유롭게 선택할 수 있다

기업이 AI를 완전하게 채택하기 위해서는 LLM이 더욱 신뢰할 수 있어야 한다는 것도 중요한 지적이다. 기업 고객은 결과물의 품질, 개인 정보 보호, 보안 문제가 해결되길 원하고 있다. LLM이 오류·환각, 차별적 콘텐츠, 위험하거나 폭력적인 콘텐츠를 생성하지 않고 보안 취약점이 노출되지 않도록 경고하거나 방지하는 소프트웨어를 요구한다. 올거나이즈에 문의하는 많은 기업이 사내 구축형(온프레미스) AI 모델의 비용과 퀄리티를 궁금해하는 것도 데이터 유출을 가장 걱정하기 때문이다.

올거나이즈는 이를 위해 크게 세 가지 방향으로 개발하고 있다. 첫째, 사용 목적에 맞는 제어 가능성, 둘째, 명확한 보안 가이드라인, 셋째, 프롬프트 버전 관리다. 올거나이즈의 고객사가 실무 현장에서 AI를 사용하면서 요구한 것들이 계속해서 반영되고 있는 셈이다. 개인 정보 입력시 자동 마스킹 및 필터링이나 프롬프트의 변경과 히스토리 관리, 사용 목적에 맞게 LLM을 자유롭게 선택해서 직무별 앱을 바로 개발할 수 있는 기능들을 추가해 왔다. 오픈소스 모델을 활용해 사내에 구축하고, 수십 만 건의 문서를 학습해 답을 찾는 것 또한 가능하다.

위에서 65%의 기업이 LLM을 적용했다고 했지만, 대다수는 단순한 앱이라고 한다. 이제 막 시작된 AI 시장에서 점점 더 많은 회사가 LLM 응용 프로그램을 만들 것이기 때문에 인프라 측면에서 엄청난 기회가 열릴 것으로 본다. 세쿼이아 캐피털은 이미 오픈AI, 허깅페이스 등 17개 AI 회사에 투자했으며 8곳은 투자 심사 진행중이라고 한다. 웹과 모바일이라는 거대한 파도 다음, AI가 모든 비즈니스에 큰 영향을 미칠 것은 자명해 보인다. 경쟁은 더 치열해지겠지만, 현장에서 뾰족한 답을 찾는 기업이 더 많아졌으면 한다.

이창수 올거나이즈 대표

KAIST 컴퓨터 사이언스 석·학사를 졸업한 이창수 대표는 AI 분야 연쇄창업자입니다. 대학 졸업 후 대기업에서 근무하다 창업 전선에 뛰어들었습니다.

2010년 데이터 분석업체 파이브락스를 창업해 4년 만에 미국 탭조이에 매각한 뒤 탭조이의 수석부사장으로 일했습니다. 업계에서는 성공적인 엑시트 사례로 평가받고 있습니다.

탭조이에서 일하던 중 또다시 회사를 뛰쳐나와 2017년 미국 실리콘밸리에서 올거나이즈를 창업했습니다. 올거나이즈는 인지검색 솔루션과 답변봇 ‘Alli(알리)’로 기업 고객과 직원의 검색 시간을 줄이고 있습니다. 인지검색 솔루션은 사용자가 질문하면 AI가 문서에서 답을 찾아주는 기술입니다.

두 달 새 15%→65%…챗GPT 시대, 잘나가는 AI 회사 전략은? [긱스]

오픈AI의 GPT 독주, 엔트로픽이 따라잡을 수 있을까

벡터 DB를 주목하라

맞춤형 AI 모델 원하는 기업, 과제는?