Stability AI đã giới thiệu “Âm thanh ổn định”, một mô hình khuếch tán tiềm ẩn được thiết kế để cách mạng hóa việc tạo âm thanh.
Bước đột phá này hứa hẹn sẽ là một bước nhảy vọt khác cho AI sáng tạo và kết hợp siêu dữ liệu văn bản, thời lượng âm thanh và điều chỉnh thời gian bắt đầu để mang lại khả năng kiểm soát chưa từng có đối với nội dung và độ dài của âm thanh được tạo ra—thậm chí còn cho phép tạo ra các bài hát hoàn chỉnh.
Các mô hình khuếch tán âm thanh theo truyền thống phải đối mặt với một hạn chế đáng kể trong việc tạo ra âm thanh có thời lượng cố định, thường dẫn đến các cụm từ âm nhạc đột ngột và không đầy đủ. Điều này chủ yếu là do các mô hình được đào tạo về các đoạn âm thanh ngẫu nhiên được cắt từ các tệp dài hơn và sau đó buộc phải có độ dài xác định trước.
Âm thanh ổn định giải quyết hiệu quả thách thức lịch sử này, cho phép tạo ra âm thanh có độ dài xác định, lên đến kích thước cửa sổ đào tạo.
Một trong những tính năng nổi bật của Âm thanh ổn định là việc sử dụng biểu diễn âm thanh tiềm ẩn được giảm tần số lấy mẫu xuống nhiều, dẫn đến thời gian suy luận được tăng tốc đáng kể so với âm thanh thô. Thông qua các kỹ thuật lấy mẫu khuếch tán tiên tiến, mẫu Âm thanh ổn định hàng đầu có thể tạo ra âm thanh nổi 95 giây ở tốc độ mẫu 44,1 kHz trong chưa đầy một giây bằng cách sử dụng sức mạnh của GPU NVIDIA A100.
Một nền tảng vững chắc
Kiến trúc cốt lõi của Âm thanh ổn định bao gồm bộ mã hóa tự động biến thiên (VAE), bộ mã hóa văn bản và mô hình khuếch tán có điều kiện dựa trên U-Net.
VAE đóng vai trò then chốt bằng cách nén âm thanh nổi thành mã hóa tiềm ẩn chống ồn, giảm tổn hao, giúp đẩy nhanh đáng kể cả quá trình tạo và đào tạo. Cách tiếp cận này, dựa trên kiến trúc bộ mã hóa và giải mã Descript Audio Codec , tạo điều kiện mã hóa và giải mã âm thanh có độ dài tùy ý trong khi vẫn đảm bảo đầu ra có độ trung thực cao.
Để khai thác tầm ảnh hưởng của lời nhắc văn bản, AI ổn định sử dụng bộ mã hóa văn bản bắt nguồn từ mô hình CLAP được đào tạo đặc biệt trên tập dữ liệu của họ. Điều này cho phép mô hình thấm nhuần các đặc điểm văn bản với thông tin về mối quan hệ giữa từ và âm thanh. Các đặc điểm văn bản này, được trích xuất từ lớp áp chót của bộ mã hóa văn bản CLAP, được tích hợp vào U-Net phổ biến thông qua các lớp chú ý chéo.
Trong quá trình đào tạo, mô hình học cách kết hợp hai thuộc tính chính từ các đoạn âm thanh: giây bắt đầu (“giây_bắt đầu”) và tổng thời lượng của tệp âm thanh gốc (“giây_total”). Các thuộc tính này được chuyển đổi thành các phần nhúng đã học riêng biệt mỗi giây, sau đó được nối với các mã thông báo nhắc nhở văn bản. Điều hòa độc đáo này cho phép người dùng chỉ định độ dài mong muốn của âm thanh được tạo trong quá trình suy luận.
Mô hình khuếch tán cốt lõi của Âm thanh ổn định tự hào có 907 triệu thông số đáng kinh ngạc và tận dụng sự kết hợp tinh vi giữa các lớp dư, lớp tự chú ý và lớp chú ý chéo để khử nhiễu đầu vào trong khi xem xét việc nhúng văn bản và thời gian. Để nâng cao hiệu quả bộ nhớ và khả năng mở rộng cho độ dài chuỗi dài hơn, mô hình này kết hợp việc triển khai sự chú ý hiệu quả về bộ nhớ.
Để đào tạo mô hình Âm thanh ổn định hàng đầu, AI ổn định đã tuyển chọn một tập dữ liệu mở rộng bao gồm hơn 800.000 tệp âm thanh bao gồm nhạc, hiệu ứng âm thanh và thân một nhạc cụ. Tập dữ liệu phong phú này, được trang bị với sự hợp tác của AudioSparx – một nhà cung cấp nhạc stock nổi tiếng – có tổng lượng âm thanh đáng kinh ngạc là 19.500 giờ.
Stable Audio đại diện cho đội tiên phong trong nghiên cứu tạo âm thanh, nổi lên từ phòng thí nghiệm nghiên cứu âm thanh tổng hợp của Stability AI, Harmonai . Nhóm vẫn tận tâm cải tiến kiến trúc mô hình, tinh chỉnh bộ dữ liệu và nâng cao quy trình đào tạo. Mục tiêu của họ bao gồm nâng cao chất lượng đầu ra, tinh chỉnh khả năng kiểm soát, tối ưu hóa tốc độ suy luận và mở rộng phạm vi độ dài đầu ra có thể đạt được.
Stability AI đã gợi ý về các bản phát hành sắp tới của Harmonai, hé lộ khả năng tạo ra các mô hình nguồn mở dựa trên Âm thanh ổn định và mã đào tạo có thể truy cập được.
Thông báo mang tính đột phá mới nhất này nối tiếp một chuỗi câu chuyện đáng chú ý về Tính ổn định. Đầu tuần này, Stability đã cùng bảy công ty AI nổi bật khác ký cam kết an toàn AI tự nguyện của Nhà Trắng như một phần của vòng thứ hai.
Bạn có thể thử Stable Audio cho chính mình tại đây .
(Ảnh của Eric Nopanen trên Bapt )

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với Tuần lễ Chuyển đổi Kỹ thuật số .
Khám phá các sự kiện và hội thảo trực tuyến về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.
Bài đăng Ổn định AI tiết lộ mô hình 'Âm thanh ổn định' để tạo âm thanh có thể điều khiển xuất hiện đầu tiên trên Tin tức AI .





