Stability AI, 제어 가능한 오디오 생성을 위한 'Stable Audio' 모델 공개

09-14

이 기사는 기계로 번역되었습니다

원문 표시

Stability AI는 오디오 생성에 혁명을 일으키기 위해 설계된 잠재 확산 모델인 "Stable Audio"를 도입했습니다.

이 획기적인 기술은 생성적 AI의 또 다른 도약을 약속하며 텍스트 메타데이터, 오디오 지속 시간 및 시작 시간 조절을 결합하여 생성된 오디오의 콘텐츠와 길이에 대한 전례 없는 제어 기능을 제공하며 심지어 완전한 노래를 생성할 수도 있습니다.

오디오 확산 모델은 전통적으로 고정된 지속 시간의 오디오를 생성하는 데 있어 상당한 한계에 직면했으며, 종종 갑작스럽고 불완전한 음악 문구로 이어졌습니다. 이는 주로 모델이 더 긴 파일에서 잘라낸 임의의 오디오 청크에 대해 훈련된 다음 미리 결정된 길이로 강제 실행되었기 때문입니다.

Stable Audio는 이러한 역사적인 과제를 효과적으로 해결하여 최대 교육 창 크기까지 지정된 길이의 오디오를 생성할 수 있습니다.

Stable Audio의 뛰어난 기능 중 하나는 크게 다운샘플링된 오디오 잠재 표현을 사용하여 원시 오디오에 비해 추론 시간이 크게 가속화된다는 것입니다. 최첨단 확산 샘플링 기술을 통해 플래그십 Stable Audio 모델은 NVIDIA A100 GPU의 성능을 활용하여 1초 이내에 44.1kHz 샘플링 속도로 95초의 스테레오 오디오를 생성할 수 있습니다.

건전한 기초

Stable Audio의 핵심 아키텍처는 VAE(Variational Autoencoder), 텍스트 인코더 및 U-Net 기반 조건 확산 모델로 구성됩니다.

VAE는 스테레오 오디오를 생성 및 훈련 프로세스를 크게 가속화하는 잡음 방지 손실 잠재 인코딩으로 압축하여 중추적인 역할을 합니다. Descript Audio Codec 인코더 및 디코더 아키텍처를 기반으로 하는 이 접근 방식은 고품질 출력을 보장하면서 임의 길이 오디오의 인코딩 및 디코딩을 용이하게 합니다.

텍스트 프롬프트의 영향을 활용하기 위해 Stability AI는 데이터세트에 대해 특별히 훈련된 CLAP 모델에서 파생된 텍스트 인코더를 활용합니다. 이를 통해 모델은 단어와 소리 간의 관계에 대한 정보로 텍스트 기능을 주입할 수 있습니다. CLAP 텍스트 인코더의 두 번째 레이어에서 추출된 이러한 텍스트 특징은 교차 관심 레이어를 통해 확산 U-Net에 통합됩니다.

훈련 중에 모델은 오디오 청크에서 시작 초('seconds_start')와 원본 오디오 파일의 총 지속 시간('seconds_total')이라는 두 가지 주요 속성을 통합하는 방법을 학습합니다. 이러한 속성은 초당 개별적으로 학습된 임베딩으로 변환된 다음 텍스트 프롬프트 토큰과 연결됩니다. 이 고유한 조건을 통해 사용자는 추론 중에 생성된 오디오의 원하는 길이를 지정할 수 있습니다.

Stable Audio의 핵심인 확산 모델은 9억 7백만 개의 매개변수를 자랑하며 잔여 레이어, Self-Attention 레이어 및 Cross-Attention 레이어의 정교한 혼합을 활용하여 텍스트 및 타이밍 임베딩을 고려하면서 입력의 잡음을 제거합니다. 더 긴 시퀀스 길이에 대한 메모리 효율성과 확장성을 향상시키기 위해 모델은 메모리 효율적인 Attention 구현을 통합합니다.

대표적인 Stable Audio 모델을 교육하기 위해 Stability AI는 음악, 음향 효과 및 단일 악기 줄기를 포함하는 800,000개 이상의 오디오 파일로 구성된 광범위한 데이터 세트를 선별했습니다. 저명한 스톡 음악 제공업체인 AudioSparx 와 협력하여 제공되는 이 풍부한 데이터 세트는 무려 19,500시간의 오디오 분량에 이릅니다.

Stable Audio는 Stability AI의 생성 오디오 연구실인 Harmonai 에서 나온 오디오 생성 연구의 선봉을 대표합니다. 팀은 모델 아키텍처를 발전시키고, 데이터 세트를 개선하고, 훈련 절차를 향상시키는 데 전념하고 있습니다. 그들의 추구에는 출력 품질 향상, 제어 가능성 미세 조정, 추론 속도 최적화 및 달성 가능한 출력 길이 범위 확장이 포함됩니다.

Stability AI는 Harmonai의 향후 출시를 암시하면서 Stable Audio 및 접근 가능한 훈련 코드를 기반으로 한 오픈 소스 모델의 가능성을 예고했습니다.

이 최신 획기적인 발표는 안정성에 관한 일련의 주목할만한 이야기에 이어졌습니다. 이번 주 초 Stability는 두 번째 라운드의 일환으로 백악관의 자발적인 AI 안전 서약에 서명한 다른 7개의 유명 AI 회사 에 합류했습니다.

여기에서 Stable Audio를 직접 사용해 볼 수 있습니다 .

( Unsplash 의 Eric Nopanen 사진)

업계 리더로부터 AI 및 빅데이터에 대해 자세히 알아보고 싶으십니까? 암스테르담, 캘리포니아, 런던에서 열리는 AI & 빅데이터 엑스포를 확인해보세요. 이 종합 행사는 디지털 혁신 주간(Digital Transformation Week) 과 함께 개최됩니다.

여기에서 TechForge가 제공하는 기타 향후 엔터프라이즈 기술 이벤트와 웹 세미나를 살펴보세요.

포스트 Stability AI, 제어 가능한 오디오 생성을 위한 'Stable Audio' 모델 공개 AI News 에 첫 등장.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트