AI가 '나만의 곡'을 5분만에 뚝딱…네이버가 먼저 알아봤다 [긱스]
입력
수정
인간의 감성은 인공지능(AI)에 가장 어려운 도전 영역입니다. 대표적인 분야가 미술·문학과 더불어 음악입니다. 곡에서 배어나는 짙은 서정성이나 활기, 애잔한 슬픔을 AI는 과연 얼마나 이해하고 표현할 수 있을까요. AI 작곡 스타트업 포자랩스(POZAlabs)의 허원길 대표(29)가 그 가능성에 대한 질문에 답합니다.
기사 서두에 AI가 작곡한 곡도 들을 수 있습니다. 한경 긱스가 '편안하고 차분한 음악'을 주문하자 포자랩스 AI는 5분만에 재즈 선율의 피아노곡을 내놨습니다. 감상해볼까요.
음악 분야 MZ(밀레니얼+Z) 세대 스타트업 대표라니, 어쩐지 상당한 ‘외향인’일 것 같다는 편견이 있었다. 예상과 달리 수줍은 인상에 조심스러운 말투를 지닌 '외유내강형' 창업가를 지난달 서울 강남의 한 사무실에서 만났다. AI 작곡 스타트업 포자랩스의 허원길 대표(사진)가 주인공이다.그는 자리에 앉자마자 포자랩스의 프로그램을 활용해 5분 만에 2분짜리 곡을 만들어냈다. (아래에 링크해 둔 음악이다.) '#편안한 #듣기좋은 #차분한 #카페 #피아노' 태그를 가진 재즈 발라드라고 한다. 기계적이거나 부자연스럽지 않고 자연스러웠다.
포자랩스가 자사의 AI 작곡 프로그램으로 만든 2분 길이의 잔잔한 재즈 음악. 이 음악은 포자랩스의 음악구독 플랫폼 'viodio'에 업로드 될 예정이다.
이런 기술력을 바탕으로 네이버를 비롯해 본엔젤스벤처파트너스, KB인베스트먼트 등으로부터 수십억원 규모의 투자를 받있다. 최근 서비스 출시와 함께 새로운 투자 유치를 진행중이다.지난달 31일엔 AI가 작곡한 음악을 제공하는 플랫폼 서비스 'viodio'를 정식 출시했다. 1인 크리에이터를 위한 구독 서비스로 AI가 작곡한 15가지 장르, 18가지 분위기의 음악 5000여 개를 월 1만 2900원에 이용할 수 있다. 유튜브, 라이브커머스, 틱톡 등 1인 영상 크리에이터들이 급증하면서 BGM(배경음악) 시장도 함께 커지고 있다. 영상마다 여러 개의 BGM이 필요하지만 유튜브에서 무료 제공하는 음악은 3000여 개. 퀄리티도, 종류도 한정적일 수 밖에 없다.
음악을 직접 제작 의뢰해 첨부하자니 저작권료가 만만치 않다. 1인 창작자에게는 시간적·경제적으로 상당한 부담이었다. 수요·공급은 있지만 수지타산이 맞지 않는 상황. 포자랩스는 이런 틈새를 겨냥해 첫 공식 서비스를 출시했다고 설명했다.
타사에 비해 음악의 퀄리티가 높다는 것만으로 지속가능성을 말하긴 부족했다. 온라인에는 무료 음원을 제공하는 사이트만 십여 곳이 넘는다. 그렇다고 어쩌다 얻어 걸릴 대작이나 히트곡을 기다리며 사업을 유지할 순 없는 노릇이다. 기술의 난이도나 들이는 품에 비해 수익성에는 의문이 남는 시장이었다. 이 가운데 포자랩스는 AI음악에서 나아가 '개인화 된 음악'에 초점을 맞췄다. 이용자 자신이 좋아하는 음악을 넣으면 컬러링, 메타버스 등에서 활용가능한 나만의 음악을 만들 수 있도록 하는 기술을 개발한 것. viodio에 특정 음악을 넣으면 비슷한 다른 음악을 만들어주는 기능을 연내에 추가할 예정이라고 한다.
이 기능은 영상제작 시장에도 활용될 수 있다는게 허 대표의 설명이다. 그는 "저작권 문제로 같은 드라마라 해도 지상파, OTT, 유튜브 등 플랫폼마다 쓰이는 음악이 다 다르다보니 많은 비용이 들어가고 있다"며 "같은 곡은 아니지만 비슷한 분위기로는 가야하기 때문에 이런 분야에 (포자랩스 기술이) 활용될 것"이라고 말했다.
이미지에 따라 어울리는 음악을 자동으로 생성해주는 기술도 개발중이다. 이를 위해 최근 김선주 연세대 컴퓨터과학과 교수를 기술 고문으로 영입했다. 김 교수는 컴퓨터 비전 분야 전문가로 AI를 활용한 영상처리 분야를 연구하고 있다.
'음악다운' 결과물로 재조합하기 위해서는 다양한 음악을 분석하고 그에 따른 규칙도 학습해야 했다. 딥러닝 자연어처리(NLP) 기술이 적용됐다. AI는 이를통해 각각의 음표와 악보의 규칙을 일종의 언어로 해석한다. 이를테면 C Major(다 장조) 음계에서 '도레미파솔라시도'가 나와야 하는 것처럼 화성학 규칙, 조성 체계 등 다양한 음악 법칙과 데이터를 학습하게 된다. 생각보다 '노동집약적'인 작업이었다. 음악의 장르도 다양하고, 각각에 해당되는 데이터를 규정하고 이를 만들어 넣어야 했기 때문이다. 이를테면 힙합에는 재즈, 로-파이(Lo-Fi), 얼터너티브 등 여러 하위 장르가 있다. 이를 잘 구분해주지 않으면 AI 입장에서는 학습 과정에서 혼란을 겪는다. 각 세부 장르에 대해서도 충분한 분석을 통해 음악 데이터를 수집하고 학습시켜야 한다.
이런 기술적 어려움 때문에 포자랩스는 설립 후 약 5년 만에야 첫 공식 서비스를 출시하게 됐다. 2017년 첫 투자를 받은 이후 쭉 고난의 연속이었던 셈이다. 이미 비슷하게 AI작곡·작사를 하던 다른 스타트업은 '피봇'(사업아이템 전환)을 했고 창업멤버들은 회사를 떠났다.
"노동집약적 작업이 수년간 이어지며 힘들었습니다. 이른바 '데스벨리'라는 기간에 힘든 과정을 많이 겪으며 지금의 상태에 이른 것 같습니다. 일단 (사업이) 되면 너무 재밌을 것 같았고 사업적 기회에 대한 확신이 있었습니다. "
음악와 AI를 동시에 사랑해온만큼 작곡가와 개발자 양측의 소통에도 능하다. 포자랩스의 전체 25명의 직원 중 7명이 작곡가이며 나머지는 대부분 개발자 직원이라고 한다. 양측이 끊임없이 결과물에 대한 피드백을 주고받아야 하는 탓에 이들의 소통이 필수적이다.
당연하게도 처음부터 잘 된 건 아니었다. 둘다 전문성이 강한 분야인 탓에 표현 방법, 주로 쓰는 용어, 사고방식 등이 달라 소통에 어려움을 겪기도 했다.
"작곡가님이 리버브 효과, EQ를 추가하거나 어떤 악기 구성을 바꾸는 작업들이 필요할 때, 왜 필요한지에 대해 설명을 개발자님에게 해줘야 되잖아요. '이게 뭐가 달라졌다는 거지 ...' 하는 질문에 '웅장함과 공간감을 주기 위해서 이런 기능들이 필요하다' 이런식으로 논리적으로 설명할 줄 알아야하는 거죠. "
포자랩스는 소통을 강조할 뿐 아니라 직원들을 대상으로 인공지능 세미나를 정기적으로 진행한다. 개발자에게 작곡 강의를 제공하며 서로의 역할에 대한 이해를 돕고있다고 한다.
지난 2월 애플이 인공지능(AI)으로 작곡하는 영국 스타트업 ‘AI 뮤직’을 인수한 것이 눈에 뛰는 사례다. 이 스타트업은 AI가 상황·연령·용도에 따라 알맞은 음악을 창작한다. 아마존 웹서비스(AWS)는 작곡하는 AI 기술 '딥컴포저'를 2020년 출시했다. 선율 한 소절을 입력하고 장르를 정하면 AI가 몇 초 만에 원하는 음악을 완성해준다. 틱톡이 인수한 '쥬크덱'도 코카콜라나, 구글 등 대기업과의 작업을 지속하고 있다.
AI음악에 대한 기대가 커져가는 가운데 포자랩스의 궁극적 목표는 누구나 음악을 만들고 활용하는 것이다. 카메라가 많은 사람을 크리에이터의 세계로 이끌었듯 전문화된 영역이던 음악도 기술의 도움으로 누구나 작곡을 할 수 있게끔 한다는 취지다.
허 대표는 "자신이 원하는 분위기의 음악을 만들어 컬러링으로 사용하고, 자신의 메타버스에서 배경 음악으로 넣는 등 다양하게 활용 수 있도록 기술을 더욱 고도화할 계획"이라고 말했다. 참, 한 가지 더
AI가 만든 포자랩스 음악, 정말 표절 이슈는 없을까?
포자랩스는 이미 있는 음악 데이터로 학습시키지 않는다. 자체 작곡한 음악을 만들어 학습시키기 때문에 저작권에서는 자유롭다.
그러나 하루에 올라오는 음악만 해도 몇 만 개가 넘는 요즘, 사실 최근엔 표절이 아닌 음악들을 만들어내는 것 자체가 어려운 상황이다. BGM용 음악의 특성상 서로서로 비슷한 느낌이 있기도 하다.
그렇기에 아무리 자체 데이터를 활용해도 우연의 일치로 AI가 이미 있는 음악이랑 똑같은 음악을 만들 가능성이 있다. 확률적으로 낮지만 0%라고 말하긴 어렵다는 것."아예 가능성이 없는 건 아니지만 AI 학습 데이터 안에 이전에 있던 데이터가 없고 나름대로 창작의 과정이 있으니 큰 문제는 없다고 본다"는 게 포자랩스의 설명이다.
최다은 기자 max@hankyung.com
기사 서두에 AI가 작곡한 곡도 들을 수 있습니다. 한경 긱스가 '편안하고 차분한 음악'을 주문하자 포자랩스 AI는 5분만에 재즈 선율의 피아노곡을 내놨습니다. 감상해볼까요.
음악 분야 MZ(밀레니얼+Z) 세대 스타트업 대표라니, 어쩐지 상당한 ‘외향인’일 것 같다는 편견이 있었다. 예상과 달리 수줍은 인상에 조심스러운 말투를 지닌 '외유내강형' 창업가를 지난달 서울 강남의 한 사무실에서 만났다. AI 작곡 스타트업 포자랩스의 허원길 대표(사진)가 주인공이다.그는 자리에 앉자마자 포자랩스의 프로그램을 활용해 5분 만에 2분짜리 곡을 만들어냈다. (아래에 링크해 둔 음악이다.) '#편안한 #듣기좋은 #차분한 #카페 #피아노' 태그를 가진 재즈 발라드라고 한다. 기계적이거나 부자연스럽지 않고 자연스러웠다.
포자랩스가 자사의 AI 작곡 프로그램으로 만든 2분 길이의 잔잔한 재즈 음악. 이 음악은 포자랩스의 음악구독 플랫폼 'viodio'에 업로드 될 예정이다.
"창작자들 음원 사용 부담 덜어줄 것"
2018년 1월 만들어진 포자랩스는 편곡, 믹싱, 마스터링, 사운드렌더링 등 작곡 과정을 자동화하고 약 50만개의 데이터를 학습시켜 퀄리티를 높인 AI 작곡 스타트업이다. 허 대표는 "한 곡의 음악을 만드는데 사람이 2~3일 걸린다면 AI는 5분만에 가능하다"며 "직접 작곡한 다량의 음악 데이터를 학습한 AI가 만든 음악들로 기존 AI 음악 가운데 퀄리티 측면에서 압도적"이라고 자신감을 비췄다.이런 기술력을 바탕으로 네이버를 비롯해 본엔젤스벤처파트너스, KB인베스트먼트 등으로부터 수십억원 규모의 투자를 받있다. 최근 서비스 출시와 함께 새로운 투자 유치를 진행중이다.지난달 31일엔 AI가 작곡한 음악을 제공하는 플랫폼 서비스 'viodio'를 정식 출시했다. 1인 크리에이터를 위한 구독 서비스로 AI가 작곡한 15가지 장르, 18가지 분위기의 음악 5000여 개를 월 1만 2900원에 이용할 수 있다. 유튜브, 라이브커머스, 틱톡 등 1인 영상 크리에이터들이 급증하면서 BGM(배경음악) 시장도 함께 커지고 있다. 영상마다 여러 개의 BGM이 필요하지만 유튜브에서 무료 제공하는 음악은 3000여 개. 퀄리티도, 종류도 한정적일 수 밖에 없다.
음악을 직접 제작 의뢰해 첨부하자니 저작권료가 만만치 않다. 1인 창작자에게는 시간적·경제적으로 상당한 부담이었다. 수요·공급은 있지만 수지타산이 맞지 않는 상황. 포자랩스는 이런 틈새를 겨냥해 첫 공식 서비스를 출시했다고 설명했다.
'개인음악 시대' 연다
“일반 사람들이 음악을 잘 몰라도 대부분 좋아하는 음악은 있잖아요. 우리는 데이터를 통해서 음악을 만들다보니 그 음악에 들어가는 데이터들을 토대로 비슷한 곡을 새로 만들어낼 수 있습니다. "크리에이터를 위한 BGM 시장만으로는 한계점이 분명했다. 이미 글로벌 시장에는 쥬크덱(JukeDeck), AIVA(에이바), Amper Music(앰퍼뮤직) 등 여러 AI작곡 업체가 있다.타사에 비해 음악의 퀄리티가 높다는 것만으로 지속가능성을 말하긴 부족했다. 온라인에는 무료 음원을 제공하는 사이트만 십여 곳이 넘는다. 그렇다고 어쩌다 얻어 걸릴 대작이나 히트곡을 기다리며 사업을 유지할 순 없는 노릇이다. 기술의 난이도나 들이는 품에 비해 수익성에는 의문이 남는 시장이었다. 이 가운데 포자랩스는 AI음악에서 나아가 '개인화 된 음악'에 초점을 맞췄다. 이용자 자신이 좋아하는 음악을 넣으면 컬러링, 메타버스 등에서 활용가능한 나만의 음악을 만들 수 있도록 하는 기술을 개발한 것. viodio에 특정 음악을 넣으면 비슷한 다른 음악을 만들어주는 기능을 연내에 추가할 예정이라고 한다.
이 기능은 영상제작 시장에도 활용될 수 있다는게 허 대표의 설명이다. 그는 "저작권 문제로 같은 드라마라 해도 지상파, OTT, 유튜브 등 플랫폼마다 쓰이는 음악이 다 다르다보니 많은 비용이 들어가고 있다"며 "같은 곡은 아니지만 비슷한 분위기로는 가야하기 때문에 이런 분야에 (포자랩스 기술이) 활용될 것"이라고 말했다.
이미지에 따라 어울리는 음악을 자동으로 생성해주는 기술도 개발중이다. 이를 위해 최근 김선주 연세대 컴퓨터과학과 교수를 기술 고문으로 영입했다. 김 교수는 컴퓨터 비전 분야 전문가로 AI를 활용한 영상처리 분야를 연구하고 있다.
난관1. 인내심..."재미와 확신으로 버텨"
AI에게 작곡을 학습시키는 것 자체가 큰 산이었다. 작곡가들은 직접 작곡을 하며 음악 데이터를 제작하고, 개발자들은 미디 파일을 AI가 이해할 수 있는 데이터로 가공처리하는 작업을 했다. 작곡가와 개발자의 합작품인 셈이다.'음악다운' 결과물로 재조합하기 위해서는 다양한 음악을 분석하고 그에 따른 규칙도 학습해야 했다. 딥러닝 자연어처리(NLP) 기술이 적용됐다. AI는 이를통해 각각의 음표와 악보의 규칙을 일종의 언어로 해석한다. 이를테면 C Major(다 장조) 음계에서 '도레미파솔라시도'가 나와야 하는 것처럼 화성학 규칙, 조성 체계 등 다양한 음악 법칙과 데이터를 학습하게 된다. 생각보다 '노동집약적'인 작업이었다. 음악의 장르도 다양하고, 각각에 해당되는 데이터를 규정하고 이를 만들어 넣어야 했기 때문이다. 이를테면 힙합에는 재즈, 로-파이(Lo-Fi), 얼터너티브 등 여러 하위 장르가 있다. 이를 잘 구분해주지 않으면 AI 입장에서는 학습 과정에서 혼란을 겪는다. 각 세부 장르에 대해서도 충분한 분석을 통해 음악 데이터를 수집하고 학습시켜야 한다.
이런 기술적 어려움 때문에 포자랩스는 설립 후 약 5년 만에야 첫 공식 서비스를 출시하게 됐다. 2017년 첫 투자를 받은 이후 쭉 고난의 연속이었던 셈이다. 이미 비슷하게 AI작곡·작사를 하던 다른 스타트업은 '피봇'(사업아이템 전환)을 했고 창업멤버들은 회사를 떠났다.
"노동집약적 작업이 수년간 이어지며 힘들었습니다. 이른바 '데스벨리'라는 기간에 힘든 과정을 많이 겪으며 지금의 상태에 이른 것 같습니다. 일단 (사업이) 되면 너무 재밌을 것 같았고 사업적 기회에 대한 확신이 있었습니다. "
난관2. 개발자-작곡가 소통
허 대표는 음악의 언어, 컴퓨터의 언어를 모두 이해하는 ‘하이브리드형’ 인물이다. 5살때부터 15살까지 10년간 피아노를 쳤고 고교 시절 한창 '알파고 붐'이 불면서 AI에 대한 관심이 생겼다. 이로인해 컴퓨터과학을 전공했지만 밴드 동아리에서 키보드를 담당하는 등 연주를 멈추지 않았다. AI동아리에서 공모전을 준비하며 AI를 좋아하던 음악과 연결할 수 있는 지점을 발견했다.음악와 AI를 동시에 사랑해온만큼 작곡가와 개발자 양측의 소통에도 능하다. 포자랩스의 전체 25명의 직원 중 7명이 작곡가이며 나머지는 대부분 개발자 직원이라고 한다. 양측이 끊임없이 결과물에 대한 피드백을 주고받아야 하는 탓에 이들의 소통이 필수적이다.
당연하게도 처음부터 잘 된 건 아니었다. 둘다 전문성이 강한 분야인 탓에 표현 방법, 주로 쓰는 용어, 사고방식 등이 달라 소통에 어려움을 겪기도 했다.
"작곡가님이 리버브 효과, EQ를 추가하거나 어떤 악기 구성을 바꾸는 작업들이 필요할 때, 왜 필요한지에 대해 설명을 개발자님에게 해줘야 되잖아요. '이게 뭐가 달라졌다는 거지 ...' 하는 질문에 '웅장함과 공간감을 주기 위해서 이런 기능들이 필요하다' 이런식으로 논리적으로 설명할 줄 알아야하는 거죠. "
포자랩스는 소통을 강조할 뿐 아니라 직원들을 대상으로 인공지능 세미나를 정기적으로 진행한다. 개발자에게 작곡 강의를 제공하며 서로의 역할에 대한 이해를 돕고있다고 한다.
"모두가 음악하는 것이 목표"
국내외 다양한 빅테크 기업들도 AI 음악에 관심을 갖고있다. AI음악이 플랫폼에서 활용될 여지가 많다는 관측이다.지난 2월 애플이 인공지능(AI)으로 작곡하는 영국 스타트업 ‘AI 뮤직’을 인수한 것이 눈에 뛰는 사례다. 이 스타트업은 AI가 상황·연령·용도에 따라 알맞은 음악을 창작한다. 아마존 웹서비스(AWS)는 작곡하는 AI 기술 '딥컴포저'를 2020년 출시했다. 선율 한 소절을 입력하고 장르를 정하면 AI가 몇 초 만에 원하는 음악을 완성해준다. 틱톡이 인수한 '쥬크덱'도 코카콜라나, 구글 등 대기업과의 작업을 지속하고 있다.
AI음악에 대한 기대가 커져가는 가운데 포자랩스의 궁극적 목표는 누구나 음악을 만들고 활용하는 것이다. 카메라가 많은 사람을 크리에이터의 세계로 이끌었듯 전문화된 영역이던 음악도 기술의 도움으로 누구나 작곡을 할 수 있게끔 한다는 취지다.
허 대표는 "자신이 원하는 분위기의 음악을 만들어 컬러링으로 사용하고, 자신의 메타버스에서 배경 음악으로 넣는 등 다양하게 활용 수 있도록 기술을 더욱 고도화할 계획"이라고 말했다. 참, 한 가지 더
AI가 만든 포자랩스 음악, 정말 표절 이슈는 없을까?
포자랩스는 이미 있는 음악 데이터로 학습시키지 않는다. 자체 작곡한 음악을 만들어 학습시키기 때문에 저작권에서는 자유롭다.
그러나 하루에 올라오는 음악만 해도 몇 만 개가 넘는 요즘, 사실 최근엔 표절이 아닌 음악들을 만들어내는 것 자체가 어려운 상황이다. BGM용 음악의 특성상 서로서로 비슷한 느낌이 있기도 하다.
그렇기에 아무리 자체 데이터를 활용해도 우연의 일치로 AI가 이미 있는 음악이랑 똑같은 음악을 만들 가능성이 있다. 확률적으로 낮지만 0%라고 말하긴 어렵다는 것."아예 가능성이 없는 건 아니지만 AI 학습 데이터 안에 이전에 있던 데이터가 없고 나름대로 창작의 과정이 있으니 큰 문제는 없다고 본다"는 게 포자랩스의 설명이다.
최다은 기자 max@hankyung.com