"스스로 영화 한 편 만든다"…구글 'AI 끝판왕' 멀티모달 창조 중
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
창간 59주년 기획 '엔드 테크가 온다'
(7) '구글 AI 전초기지' 찰스턴이스트 캠퍼스
'생성형AI 고도화' 연구에 총력
텍스트만 인지하는 챗GPT 넘어
이미지·비디오까지 분석 가능
(7) '구글 AI 전초기지' 찰스턴이스트 캠퍼스
'생성형AI 고도화' 연구에 총력
텍스트만 인지하는 챗GPT 넘어
이미지·비디오까지 분석 가능
미국 캘리포니아주 마운틴뷰엔 구글 글로벌 본사인 구글플렉스 옆에 최근 찰스턴이스트 캠퍼스라는 새 건물이 문을 열었다. 구글 인공지능(AI) 개발을 총괄하는 핵심 기지다. 지난 7월 AI 관련 조직이 입주했다.
마이크로소프트(MS)와 오픈AI에 일격을 당한 구글은 4월 딥마인드와 브레인을 구글 딥마인드로 통합하며 반격을 준비하고 있다. 찰스턴이스트 캠퍼스는 이를 위한 전진 기지다. 진격 방향은 ‘멀티모달(Multi Modal)’이다. 텍스트, 이미지, 음성 등 여러 종류의 데이터를 동시에 처리할 수 있는 AI 기술이다.
챗GPT는 생성형 AI의 대표적인 서비스다. 채팅하듯 인공지능과의 대화를 통해 슈퍼컴퓨터가 할 수 있을 법한 답변을 얻을 수 있다. 오픈AI의 GPT-3는 무려 3000억 개에 달하는 학습 데이터 토큰을 학습한 것으로 알려졌다. 토큰은 AI가 답변이나 글을 쓸 때 꺼내 쓸 수 있는 일종의 AI용 어휘 사전이다. 챗GPT가 대규모언어모델(LLM)에 기반한 서비스로 불리는 이유다.
구글은 뛰어난 인공지능 기술을 보유하고 있지만 AI 기술을 상품화하는 데 주저했다. 20여 년간 절대 우위를 지키고 있는 검색 분야에 AI를 적용했다가 자칫 핵심 수익원인 광고에 악영향을 줄 수 있다는 판단에서다. 하지만 챗GPT가 모든 것을 바꿨다. 구글이 지난 5월 발표한 LLM 팜2는 약 3조6000억 개의 토큰으로 훈련한 것으로 알려졌다. 지난해 출시된 팜은 7800억 개 토큰으로 학습했다.
구글은 이르면 다음달 공개할 차세대 LLM ‘제미니’를 통해 멀티모달 AI 기술 부문에서 경쟁우위에 서겠다는 전략으로 막바지 연구개발에 집중하고 있다.
주빈 가라마니 구글 딥마인드 부사장은 지난 5월 연 ‘구글 연례 개발자 회의(I/O)’에서 “멀티모달 AI는 의료 진단, 가상 비서, 자율주행 차량 등 많은 분야에서 활용할 수 있다”며 “질병 진단 시 AI가 텍스트와 의료 영상을 동시에 분석해 까다로운 질병을 정확하고 신속하게 진단할 수 있다”고 설명했다.
제미니는 GPT-4보다 연산량 기준으로 다섯 배 이상 많은 양의 학습을 하는 것으로 알려졌다. 순다르 피차이 알파벳 최고경영자(CEO)는 지난 8월 열린 ‘구글 클라우드 넥스트 2023’ 행사에 기조연설자로 나서 “AI가 모든 분야, 산업, 비즈니스에 영향을 미치고, 우리가 생활하고 일하는 방식도 크게 변화할 것”이라며 “AI 전환은 우리 생애에서 가장 심오한 변화가 될 것”이라고 강조했다.
빅테크의 지향점은 ‘누구나 쉽게 영화감독이 될 수 있는 수준’으로 AI 학습량을 늘리는 것이다. 하지만 아직 갈 길이 멀다는 지적이 많다. 비디오만 해도 프레임 하나하나를 어떻게 인식하고 구현할지가 여전히 풀어야 할 기술적 과제인 것으로 알려졌다.
투자자본수익률(ROI) 문제도 난관이다. 현재의 AI 기술은 학습 및 추론 과정에 막대한 에너지를 소모하고, 수십억달러의 투자비가 들어간다. 클라우드 구축과 운영 과정에서 많은 탄소를 배출하기 때문에 장기적으로 지속 가능하지 않다는 점도 지적되고 있다. 높은 추론 효율성을 유지하면서 학습비용을 낮춘 멀티모달 모델을 개발하는 기업이 앞으로 AI 시장에서 퍼스트무버 역할을 할 것이라는 얘기다.
실리콘밸리=최진석 특파원 iskra@hankyung.com
마이크로소프트(MS)와 오픈AI에 일격을 당한 구글은 4월 딥마인드와 브레인을 구글 딥마인드로 통합하며 반격을 준비하고 있다. 찰스턴이스트 캠퍼스는 이를 위한 전진 기지다. 진격 방향은 ‘멀티모달(Multi Modal)’이다. 텍스트, 이미지, 음성 등 여러 종류의 데이터를 동시에 처리할 수 있는 AI 기술이다.
‘2차 대전’ 치르는 생성형 AI
구글은 AI 기술을 고도화하기 위한 로드맵을 수립해 착실히 이행 중이다. 오픈AI가 선보인 챗GPT를 뛰어넘을 비밀 병기를 내놓기 위해 공을 들이고 있는 것으로 알려졌다.챗GPT는 생성형 AI의 대표적인 서비스다. 채팅하듯 인공지능과의 대화를 통해 슈퍼컴퓨터가 할 수 있을 법한 답변을 얻을 수 있다. 오픈AI의 GPT-3는 무려 3000억 개에 달하는 학습 데이터 토큰을 학습한 것으로 알려졌다. 토큰은 AI가 답변이나 글을 쓸 때 꺼내 쓸 수 있는 일종의 AI용 어휘 사전이다. 챗GPT가 대규모언어모델(LLM)에 기반한 서비스로 불리는 이유다.
구글은 뛰어난 인공지능 기술을 보유하고 있지만 AI 기술을 상품화하는 데 주저했다. 20여 년간 절대 우위를 지키고 있는 검색 분야에 AI를 적용했다가 자칫 핵심 수익원인 광고에 악영향을 줄 수 있다는 판단에서다. 하지만 챗GPT가 모든 것을 바꿨다. 구글이 지난 5월 발표한 LLM 팜2는 약 3조6000억 개의 토큰으로 훈련한 것으로 알려졌다. 지난해 출시된 팜은 7800억 개 토큰으로 학습했다.
“멀티모달 AI 주도권 차지해야”
구글을 비롯한 미국의 빅테크는 자연어에 기반한 LLM을 뛰어넘을 ‘멀티모달 AI’에서 주도권을 쥐기 위해 사활을 건 경쟁을 벌이고 있다. 영화 ‘어벤져스’에 나오는 AI 개인 비서 ‘자비스’를 현실에서 구현하겠다는 것이다. 오픈AI는 최신 모델인 GPT-4를 올 3월 내놓긴 했지만 텍스트 외에 음성과 이미지, 비디오로 출력값을 보여주는 수준의 멀티모달 기술을 구현하지는 못했다.구글은 이르면 다음달 공개할 차세대 LLM ‘제미니’를 통해 멀티모달 AI 기술 부문에서 경쟁우위에 서겠다는 전략으로 막바지 연구개발에 집중하고 있다.
주빈 가라마니 구글 딥마인드 부사장은 지난 5월 연 ‘구글 연례 개발자 회의(I/O)’에서 “멀티모달 AI는 의료 진단, 가상 비서, 자율주행 차량 등 많은 분야에서 활용할 수 있다”며 “질병 진단 시 AI가 텍스트와 의료 영상을 동시에 분석해 까다로운 질병을 정확하고 신속하게 진단할 수 있다”고 설명했다.
제미니는 GPT-4보다 연산량 기준으로 다섯 배 이상 많은 양의 학습을 하는 것으로 알려졌다. 순다르 피차이 알파벳 최고경영자(CEO)는 지난 8월 열린 ‘구글 클라우드 넥스트 2023’ 행사에 기조연설자로 나서 “AI가 모든 분야, 산업, 비즈니스에 영향을 미치고, 우리가 생활하고 일하는 방식도 크게 변화할 것”이라며 “AI 전환은 우리 생애에서 가장 심오한 변화가 될 것”이라고 강조했다.
빅테크의 지향점은 ‘누구나 쉽게 영화감독이 될 수 있는 수준’으로 AI 학습량을 늘리는 것이다. 하지만 아직 갈 길이 멀다는 지적이 많다. 비디오만 해도 프레임 하나하나를 어떻게 인식하고 구현할지가 여전히 풀어야 할 기술적 과제인 것으로 알려졌다.
투자자본수익률(ROI) 문제도 난관이다. 현재의 AI 기술은 학습 및 추론 과정에 막대한 에너지를 소모하고, 수십억달러의 투자비가 들어간다. 클라우드 구축과 운영 과정에서 많은 탄소를 배출하기 때문에 장기적으로 지속 가능하지 않다는 점도 지적되고 있다. 높은 추론 효율성을 유지하면서 학습비용을 낮춘 멀티모달 모델을 개발하는 기업이 앞으로 AI 시장에서 퍼스트무버 역할을 할 것이라는 얘기다.
실리콘밸리=최진석 특파원 iskra@hankyung.com