“카카오 AI, 글을 쓰고 그림까지 그린다”카카오브레인, 초거대 AI 두번째 모델 ‘minDALL-E’ 공개
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
한국어 초거대 언어모델 ‘KoGPT’에 이어 텍스트-이미지 동시 이해하는 멀티모달 개발
명령어 입력하면 그에 맞는 이미지를 직접 그리는 방식, 콘텐츠 영역 활용 기대
KoGPT 파라미터 수 60억개->300억개 대폭 늘려 성능 고도화
명령어 입력하면 그에 맞는 이미지를 직접 그리는 방식, 콘텐츠 영역 활용 기대
KoGPT 파라미터 수 60억개->300억개 대폭 늘려 성능 고도화
카카오가 글을 쓰는 것을 넘어 그림까지 그릴 수 있는 AI를 개발해 공개했다.
카카오브레인(대표 김일두)은 15일 초거대 AI 멀티모달(multimodal) ‘minDALL-E’를 세계 최대 오픈소스 커뮤니티 깃허브(github)에 공개했다고 밝혔다. 지난 달 한국어 특화 AI 언어모델 ‘KoGPT’를 선보인 지 한달 만에 두번째 초거대 AI 모델을 오픈소스로 공개한 것이다.
‘minDALL-E’는 이용자가 텍스트로 명령어를 입력하면 실시간으로 원하는 이미지를 만들어주는 이미지 생성 모델이다. Open AI의 'DALL-E'를 누구나 접근하기 쉽게 작은 사이즈 모델로 만든 것으로 1,400만장의 텍스트와 이미지 세트를 사전 학습했다.
예를 들어 “바나나 껍질로 만든 의자 그려줘”, “보름달과 파리 에펠탑이 같이 있는 그림 보여줘”, “살바도르 달리 화가 스타일로 그려줘” 라는 명령어를 입력하면, AI가 명령어의 맥락을 이해하고 바로 이미지를 도출한다. 검색을 통해 이미지를 찾아내는 것이 아니라, AI가 스스로 명령을 이해하고 직접 이미지를 그리는 것이다. 스토리텔링 콘텐츠의 삽화를 만들거나, 교육 자료 제작 등에 활용하는 등 다양한 콘텐츠 산업에 적용할 수 있을 것으로 기대된다.
카카오브레인은 지난 달 공개한 KoGPT 모델의 성능 고도화에도 집중하고 있다. 구글에서 개발한 텐서 처리 장치인 ‘구글 TPU’를 활용해 1엑사 플롭스(컴퓨터의 연산 속도 단위/초당 100경 연산처리)를 뛰어넘는 국내 최대 규모의 딥러닝 슈퍼컴퓨팅 인프라를 도입해 연구 효율을 높였다. 아울러 KoGPT 모델의 매개변수(파라미터)를 60억개에서 300억개의 사이즈까지 5배 늘려 이전보다 더 정확하게 명령을 이행할 수 있도록 만들었다.
카카오브레인은 오는 17일(금) ’오픈 미니 컨퍼런스’를 온라인으로 개최하고 ‘KoGPT’ 와 멀티모달 ‘ ‘minDALL-E’에 관해 자세히 설명하는 자리를 갖는다. 본 행사는 카카오브레인의 최신 연구 성과와 기술 노하우, 미래 비전 등을 공유하기 위한 기술 컨퍼런스로 CEO세션을 비롯해 다양한 기술 소개를 총 집합한 19개 세션을 마련했다.
카카오브레인 GM (Generative Model) 팀 김세훈 연구원이 발표자로 나서 ‘minDALL-E’에 관해 소개하는 세션, 김일두 대표가 직접 KoGPT에 관해 소개하는 시간을 가질 예정이다. 모든 세션이 종료된 이후, 김일두 대표는 그 동안 생각하지 못했던 질문을 던져 세상을 변화시켜보자는 카카오브레인의 비전 ‘언띵커블 퀘스쳔(Unthinkable Question)’를 주제로 초거대 AI 등 2022년 핵심 기술 연구 로드맵을 밝히는 자리를 진행한다.
카카오브레인 김일두 대표는 “인공지능이 사람처럼 생각하고 말하려면 어떤 요소가 필요할 지, 인공지능에게 기억력, 추론 능력, 이해 능력이 있다면 사람처럼 소통할 수 있을지 등 끝없이 질문을 던지며 연구하고 있다” 며 “최근 공개한 언어 모델 KoGPT과 이번에 공개한 DALL-E를 시작으로 순차적으로 초거대 AI의 다양한 모델을 공개할 것이다. 이는 차세대 딥러닝 구축을 위한 필수 연구 과정으로 해당 모델을 오픈 소스로 공개해 국내 IT 생태계 기술 발전에 기여할 것” 이라고 포부를 전했다.
카카오브레인(대표 김일두)은 15일 초거대 AI 멀티모달(multimodal) ‘minDALL-E’를 세계 최대 오픈소스 커뮤니티 깃허브(github)에 공개했다고 밝혔다. 지난 달 한국어 특화 AI 언어모델 ‘KoGPT’를 선보인 지 한달 만에 두번째 초거대 AI 모델을 오픈소스로 공개한 것이다.
‘minDALL-E’는 이용자가 텍스트로 명령어를 입력하면 실시간으로 원하는 이미지를 만들어주는 이미지 생성 모델이다. Open AI의 'DALL-E'를 누구나 접근하기 쉽게 작은 사이즈 모델로 만든 것으로 1,400만장의 텍스트와 이미지 세트를 사전 학습했다.
예를 들어 “바나나 껍질로 만든 의자 그려줘”, “보름달과 파리 에펠탑이 같이 있는 그림 보여줘”, “살바도르 달리 화가 스타일로 그려줘” 라는 명령어를 입력하면, AI가 명령어의 맥락을 이해하고 바로 이미지를 도출한다. 검색을 통해 이미지를 찾아내는 것이 아니라, AI가 스스로 명령을 이해하고 직접 이미지를 그리는 것이다. 스토리텔링 콘텐츠의 삽화를 만들거나, 교육 자료 제작 등에 활용하는 등 다양한 콘텐츠 산업에 적용할 수 있을 것으로 기대된다.
카카오브레인은 지난 달 공개한 KoGPT 모델의 성능 고도화에도 집중하고 있다. 구글에서 개발한 텐서 처리 장치인 ‘구글 TPU’를 활용해 1엑사 플롭스(컴퓨터의 연산 속도 단위/초당 100경 연산처리)를 뛰어넘는 국내 최대 규모의 딥러닝 슈퍼컴퓨팅 인프라를 도입해 연구 효율을 높였다. 아울러 KoGPT 모델의 매개변수(파라미터)를 60억개에서 300억개의 사이즈까지 5배 늘려 이전보다 더 정확하게 명령을 이행할 수 있도록 만들었다.
카카오브레인은 오는 17일(금) ’오픈 미니 컨퍼런스’를 온라인으로 개최하고 ‘KoGPT’ 와 멀티모달 ‘ ‘minDALL-E’에 관해 자세히 설명하는 자리를 갖는다. 본 행사는 카카오브레인의 최신 연구 성과와 기술 노하우, 미래 비전 등을 공유하기 위한 기술 컨퍼런스로 CEO세션을 비롯해 다양한 기술 소개를 총 집합한 19개 세션을 마련했다.
카카오브레인 GM (Generative Model) 팀 김세훈 연구원이 발표자로 나서 ‘minDALL-E’에 관해 소개하는 세션, 김일두 대표가 직접 KoGPT에 관해 소개하는 시간을 가질 예정이다. 모든 세션이 종료된 이후, 김일두 대표는 그 동안 생각하지 못했던 질문을 던져 세상을 변화시켜보자는 카카오브레인의 비전 ‘언띵커블 퀘스쳔(Unthinkable Question)’를 주제로 초거대 AI 등 2022년 핵심 기술 연구 로드맵을 밝히는 자리를 진행한다.
카카오브레인 김일두 대표는 “인공지능이 사람처럼 생각하고 말하려면 어떤 요소가 필요할 지, 인공지능에게 기억력, 추론 능력, 이해 능력이 있다면 사람처럼 소통할 수 있을지 등 끝없이 질문을 던지며 연구하고 있다” 며 “최근 공개한 언어 모델 KoGPT과 이번에 공개한 DALL-E를 시작으로 순차적으로 초거대 AI의 다양한 모델을 공개할 것이다. 이는 차세대 딥러닝 구축을 위한 필수 연구 과정으로 해당 모델을 오픈 소스로 공개해 국내 IT 생태계 기술 발전에 기여할 것” 이라고 포부를 전했다.