[AI뉴스레터]저음질 파일도 AI가 방송국 녹음 수준으로 바꿔준다
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
TREND & ISSUE
엔비디아, GTC 2022서 신기술 공개
AI가 '빈 정보' 계산해 새 데이터 생성
화상회의·디지털트윈 등에 활용
엔비디아, GTC 2022서 신기술 공개
AI가 '빈 정보' 계산해 새 데이터 생성
화상회의·디지털트윈 등에 활용
코로나19 장기화로 가상 환경 기반 비대면 업무가 늘고 있습니다. 화상회의가 대표적입니다. 온라인 세상에 현실 설비 '쌍둥이'를 만들어 관리하는 디지털트윈도 그렇습니다. 글로벌 반도체기업 엔비디아는 최근 연례 개발자 포럼 'GTC 2022'에서 화상회의와 디지털트윈 제작 등에 쓸 수 있는 솔루션 여럿을 소개했는데요. 인공지능(AI)을 활용해 기존 대비 데이터의 품질을 높이고 처리 시간은 줄여주는 게 특징입니다.
디지털 기기가 음성을 전달하려면 아날로그 음성 신호를 디지털로 변환해야 합니다. 이 과정에서 음성을 1초당 몇 차례씩 디지털신호로 쪼개 처리하는 지에 따라 음성 품질이 달라집니다. 이를 샘플링이라고 합니다. 통상 초당 샘플링 횟수가 많을수록 음성 품질이 높습니다. 점묘법으로 그림을 그릴 때 지름 1cm 짜리 점을 모아 그리는 경우보다 지름 0.1cm 짜리 점으로 그릴 때 더 자세한 풍경을 보여줄 수 있는 것과 비슷합니다.
엔비디아는 음성을 처리할 때 초당 디지털 신호 갯수를 기존에 비해 더 잘게 나누는 '업샘플링' 방식을 써서 화상회의 음성 품질을 올리도록 했습니다. 맥신의 수퍼 해상도 오디오 기능은 8킬로헤르츠(kHz)에서 48kHz로 오디오 업샘플링을 지원합니다. 오리지널 음성 데이터가 초당 음성 샘플링을 8000회 했다면, 이를 AI가 초당 4만8000회 샘플링을 한 것처럼 바꿔주는 식입니다. 이 과정에서 추가로 필요한 오디오 데이터는 AI가 알고리즘을 통해 만들어냅니다.
48kHz는 TV 방송국 등에서 녹음할 때 쓰이는 수준입니다. 엔비디아는 "구리선 기반 구식 전화와 최신 인터넷전화(VoIP) 간 음성 품질 격차를 효과적으로 해소해 줄 것"이라고 설명했습니다.
엔비디아는 맥신에 AI 기반 배경 소음 차단 기능도 넣었습니다. AI가 주요 음성 신호를 파악해 처리하고, 나머지는 처리하지 않는 방식입니다. 이를 통하면 화상회의를 하던 중 집안에서 개가 짖거나 밖에서 공사 소음이 발생해도 상대편에서 소음을 들을 수 없습니다.
AI가 음성을 실시간으로 번역해 텍스로 보여주는 번역 서비스도 강화했습니다. 영어, 프랑스어, 독일어, 스페인어 등을 번역할 수 있다는 설명입니다.
사진으로 3D 그래픽을 만들어주는 솔루션은 기존에도 여럿 있습니다. 엔비디아는 인스턴트 NeRF의 속도를 강점으로 내세웠습니다. 1920*1080 해상도 기준 그래픽을 수십 밀리초 안에 만들 수 있었다는 설명입니다.
엔비디아는 사진을 3D 그래픽으로 바꿔주는 시간이 빨라지면 이 기능을 디지털트윈 제작·구동에 쓸 여지도 커진다고 보고 있습니다. 공장이나 도시 등 복잡하고 거대한 디지털트윈을 만들 수도 있다는 겁니다. 엔비디아는 "인스턴트 NeRF를 로봇이나 자율주행차 산업, 건축, 엔터테인먼트 등에 쓸 수 있을 것"이라고 내다봤습니다.
선한결 IT과학부 기자
자동으로 음성 품질 높이는 AI
엔비디아는 GTC 2022에서 AI 영상회의 플랫폼 '맥신'에 각종 업데이트를 적용한다고 발표했습니다. 새 기능인 '수퍼 해상도 오디오' 는 AI 기술을 사용해 오디오 품질을 올려줍니다.디지털 기기가 음성을 전달하려면 아날로그 음성 신호를 디지털로 변환해야 합니다. 이 과정에서 음성을 1초당 몇 차례씩 디지털신호로 쪼개 처리하는 지에 따라 음성 품질이 달라집니다. 이를 샘플링이라고 합니다. 통상 초당 샘플링 횟수가 많을수록 음성 품질이 높습니다. 점묘법으로 그림을 그릴 때 지름 1cm 짜리 점을 모아 그리는 경우보다 지름 0.1cm 짜리 점으로 그릴 때 더 자세한 풍경을 보여줄 수 있는 것과 비슷합니다.
엔비디아는 음성을 처리할 때 초당 디지털 신호 갯수를 기존에 비해 더 잘게 나누는 '업샘플링' 방식을 써서 화상회의 음성 품질을 올리도록 했습니다. 맥신의 수퍼 해상도 오디오 기능은 8킬로헤르츠(kHz)에서 48kHz로 오디오 업샘플링을 지원합니다. 오리지널 음성 데이터가 초당 음성 샘플링을 8000회 했다면, 이를 AI가 초당 4만8000회 샘플링을 한 것처럼 바꿔주는 식입니다. 이 과정에서 추가로 필요한 오디오 데이터는 AI가 알고리즘을 통해 만들어냅니다.
48kHz는 TV 방송국 등에서 녹음할 때 쓰이는 수준입니다. 엔비디아는 "구리선 기반 구식 전화와 최신 인터넷전화(VoIP) 간 음성 품질 격차를 효과적으로 해소해 줄 것"이라고 설명했습니다.
엔비디아는 맥신에 AI 기반 배경 소음 차단 기능도 넣었습니다. AI가 주요 음성 신호를 파악해 처리하고, 나머지는 처리하지 않는 방식입니다. 이를 통하면 화상회의를 하던 중 집안에서 개가 짖거나 밖에서 공사 소음이 발생해도 상대편에서 소음을 들을 수 없습니다.
AI가 음성을 실시간으로 번역해 텍스로 보여주는 번역 서비스도 강화했습니다. 영어, 프랑스어, 독일어, 스페인어 등을 번역할 수 있다는 설명입니다.
2D 사진을 수십밀리초만에 3D 렌더링
엔비디아는 '인스턴트 NeRF'라는 솔루션도 소개했습니다. 미국 UC 버클리대와 US 샌디에이고대, 구글 연구진 등이 개발한 기술입니다. 2차원(2D) 사진 몇십장만 있으면 3차원(3D) 그래픽으로 바꿔주는 렌더링 기능입니다. 인스턴트 NeRF는 서로 다른 사진의 색상과 광도를 분석해 3차원 그래픽용 데이터를 생성합니다. 여기에다 사진을 찍은 카메라 위치에 대한 데이터를 더해 각 사진 그래픽 데이터를 위치에 맞게 연결해 3D 그래픽을 만들어내는 식입니다. 데이터를 변환할 때 추가로 필요한 정보를 AI가 만들어낸다는 점에선 맥신의 수퍼 해상도 오디오 기능과 비슷한 부분이 있습니다. 다만 아직까지는 카메라 위치 데이터를 별도로 확보해야 3D 그래픽을 만들 수 있다고 하네요.사진으로 3D 그래픽을 만들어주는 솔루션은 기존에도 여럿 있습니다. 엔비디아는 인스턴트 NeRF의 속도를 강점으로 내세웠습니다. 1920*1080 해상도 기준 그래픽을 수십 밀리초 안에 만들 수 있었다는 설명입니다.
엔비디아는 사진을 3D 그래픽으로 바꿔주는 시간이 빨라지면 이 기능을 디지털트윈 제작·구동에 쓸 여지도 커진다고 보고 있습니다. 공장이나 도시 등 복잡하고 거대한 디지털트윈을 만들 수도 있다는 겁니다. 엔비디아는 "인스턴트 NeRF를 로봇이나 자율주행차 산업, 건축, 엔터테인먼트 등에 쓸 수 있을 것"이라고 내다봤습니다.
선한결 IT과학부 기자