AI Stefanie Sun có mặt ở khắp mọi nơi, nhưng tại sao ChatGPT lại hát sai giai điệu?

avatar
36kr
05-29
Bài viết này được dịch máy
Xem bản gốc

Một nhân cách ca sĩ của ChatGPT từng bị "giấu kín" đã bắt đầu không kiềm chế được?

Trong những ngày gần đây, người dùng X Tibor Blaho đã phấn khích phát hiện ra rằng ChatGPT ở chế độ giọng nói cao cấp lại có thể hát, và còn hát bài nhạc Giáng sinh cổ điển《Last Christmas》với giai điệu rõ ràng.

Những câu hát《Last Christmas》của ChatGPT so với phiên bản gốc của "Wham!" về cơ bản không sai một chữ, giai điệu cũng khá ổn. Tuy nhiên, phiên bản ChatGPT GPT-4o vẫn còn hơi thiếu nhịp điệu, việc đánh nhịp khá rõ ràng.

Không chỉ nhạc pop, có vẻ như ChatGPT cũng có thể hát được một số câu opera.

Nếu bạn không biết muốn nghe bài hát nào, hãy nói trực tiếp với ChatGPT "Sing me a song", có lẽ trong suốt ngày hôm đó bạn sẽ bị "bài hát AI" này ám ảnh.

Thực tế, khi OpenAI lần đầu tiên giới thiệu mô hình hàng đầu GPT-4o vào tháng 5 năm ngoái, cũng đã gây nên một làn sóng trợ lý chat AI ChatGPT hát.

Sau một năm, khi ChatGPT lại hát bài hát chúc mừng sinh nhật cho bạn, cho dù là giai điệu hay giọng hát đều nghe tự nhiên và trôi chảy hơn, cũng mang tính con người hơn,như thể một người bạn cũ đang ở bên cạnh cầm bánh chúc mừng sinh nhật.

AI Đan Trường nổi tiếng được hai năm, tại sao ChatGPT vẫn chưa biết hát?

Bạn có thể sẽ thắc mắc, âm nhạc do AI tạo ra trên các phương tiện truyền thông xã hội hầu hết đều khó phân biệt thật giả, AI Đan Trường cũng đã nổi tiếng được hai năm, tại sao trợ lý chat AI của bạn vẫn chưa học được cách hát?

Không giống như các công cụ âm nhạc AI sinh thành, vị trí của ChatGPT vẫn là một trợ lý chat AI.

Bạn thấy đế công nghệ đằng sau ChatGPT, GPT-4o, GPT-4.5 đều là những "vận động viên đa năng", có thể làm được mọi thứ, nhưng nếu nói tối ưu hóa riêng cho việc tạo âm thanh, thì thực sự không phải.

Suno, ElevenLabs những nhà làm AI âm nhạc này, bạn có thể hiểu là những "sinh viên tốt nghiệp từ học viện âm nhạc", họ xuất thân chuyên nghiệp. ChatGPT giống như người bình thường, có thể hát, nhưng so với ca sĩ chuyên nghiệp thì chắc chắn còn kém.

Vì vậy, để ChatGPT "mở miệng hát", không phải dựa vào mô hình "văn bản sinh âm thanh" chuyên nghiệp, mà còn cần một số "hỗ trợ bên ngoài", một là công nghệ tổng hợp giọng nói (TTS), hai là AudioGPT.

(Phần còn lại của bản dịch tương tự như trên, tuân thủ các quy tắc dịch thuật đã được đặt ra)

Ngoài ra, từ nhiều trường hợp thử nghiệm của người dùng mạng, ChatGPT sẽ hát một hoặc hai câu rồi chủ động dừng lại. Tình huống này không lạ, "Các bài hát chưa được khai báo tại buổi hòa nhạc không thể hát", "Bài hát chưa mua bản quyền chỉ có thể nghe thử vài giây", "Các cửa hàng dọc đường không thể phát nhạc nền quen thuộc nhưng không có bản quyền"...

Những điều này cuối cùng đều chỉ ra một vấn đề, bản quyền bài hát luôn là ranh giới đỏ trong giới âm nhạc, và các trợ lý trò chuyện AI cũng rất khó xử lý điều này.

Một mặt, việc tạo nhạc bằng AI có thể phải đối mặt với nhiều rủi ro pháp lý, chủ yếu bao gồm:

  • Vi phạm bản quyền tác giả: Âm nhạc do AI tạo ra có thể vi phạm bản quyền tác phẩm âm nhạc (lời và nhạc), quyền của người biểu diễn và quyền của nhà sản xuất bản ghi âm.
  • Vi phạm quyền giọng nói: Nếu AI bắt chước giọng ca sĩ có thể nhận dạng được, tức là người nghe thông thường có thể liên tưởng đến một cá nhân cụ thể thông qua âm sắc, giọng điệu, thì có thể vi phạm quyền giọng nói.
  • Bảo vệ thông tin cá nhân: Dấu vân âm thanh thuộc loại thông tin cá nhân nhạy cảm, việc trích xuất dấu vân âm thanh để đào tạo mà không có sự đồng ý của chủ sở hữu quyền có thể cấu thành vi phạm.

Do đó, việc ChatGPT đối phó một cách né tránh cũng không có gì lạ.

Nó hoặc nói rằng mình «không thể hát», «chỉ có thể đọc lời bài hát»; hoặc «hát lung tung», sử dụng phương pháp hát «chạm giới hạn» với giọng điệu sai. Điều này chắc chắn đã đẩy lùi khoảng cách để con người và trợ lý trò chuyện AI có thể hát karaoke thoải mái thêm một chút.

Mặt khác, đó là vấn đề thu thập và đào tạo dữ liệu mà giới AI thường bàn luận, liên quan đến việc liệu bộ sưu tập tác phẩm của nhà soạn nhạc, nhạc công, nhà soạn nhạc có nên được cấp phép cho AI hay không.

Lấy ví dụ về AJ Smith AI hát lại bản nhạc kinh điển của ban nhạc Beatles. Theo báo chí nước ngoài, lý do ChatGPT AVM có thể nối tiếp lời bài hát «Eleanor Rigby» và hát theo rất có thể là vì tập dữ liệu đào tạo của GPT-4o chứa các đoạn âm thanh của những người hát lại, biểu diễn bài hát này.

OpenAI vốn thường sử dụng YouTube làm nguồn dữ liệu đào tạo cho các sản phẩm ban đầu như GPT-4, Whisper và Sora, và GPT-4o có lẽ cũng không ngoại lệ.

Bạn cũng có thể nghĩ đến việc hiện nay có nhiều hướng dẫn đề xuất lấy các lời bài hát «sáng tạo» của ChatGPT, đưa vào các công cụ tạo nhạc AI khác để sáng tạo lại, cuối cùng có được bản nhạc hoàn chỉnh.

Việc sáng tạo nhạc bằng AI có thể trở thành một hướng suy nghĩ mới, nhưng cũng có rủi ro vi phạm bản quyền không nhỏ, chẳng hạn như việc AI «may vá» ghép lời bài hát.

Ngay tuần trước, tạp chí Wired đã báo cáo về một vụ lừa đảo âm nhạc AI với số tiền liên quan lên tới hàng triệu đô la Mỹ.

Nhà sản xuất âm nhạc Hoa Kỳ Michael Smith đã sử dụng công nghệ AI để tạo ra hàng trăm nghìn bài hát từ năm 2017, sau đó thay đổi nhẹ, giả mạo là bài hát gốc để lừa các nền tảng phát trực tuyến lấy tiền bản quyền.

Những tác phẩm âm nhạc AI «ghép nối» này đã đạt được gần 1 tỷ lượt phát, không phải nhờ người hâm mộ chi tiền để leo bảng xếp hạng, mà là các tài khoản ảo robot liên tục chạy bảng xếp hạng ngày đêm.

Trong thời gian này, Smith còn sử dụng script để tải lên các nền tảng phát trực tuyến một lượng lớn tệp nhạc từ các công ty nhạc AI.

Năm 2024, Smith phải đối mặt với nhiều vụ kiện và có thể phải đối mặt với mức án tối đa 60 năm. Trong tương lai, khi các quy định liên quan đến AI ngày càng hoàn thiện, các tiêu chuẩn kết tội về vi phạm bản quyền âm nhạc AI có lẽ cũng sẽ độc lập và trưởng thành.

CEO OpenAI Altman từng nói về quan điểm của ông về bản quyền âm nhạc AI tại một hội nghị, ông ủng hộ "các nhà sáng tạo nên có quyền kiểm soát". Thời điểm này cách năm sau khi GPT-4o ra mắt vẫn còn khoảng 1 năm.

OpenAI là đối tác của tính năng AI DJ trên nền tảng phát trực tuyến âm nhạc nổi tiếng Spotify, và trước đó đã phát hành một số dự án nghiên cứu AI âm nhạc, bao gồm MuseNet năm 2019 và Jukebox năm 2020.

Altman đã bày tỏ quan điểm như sau:

Đầu tiên, chúng tôi cho rằng các nhà sáng tạo có quyền kiểm soát cách sử dụng tác phẩm của họ và những gì sẽ xảy ra sau khi tác phẩm được phát hành ra thế giới.

Thứ hai, tôi nghĩ chúng ta cần sử dụng công nghệ mới này để tìm ra những cách thức mới để các nhà sáng tạo có thể thành công, phát triển và có cuộc sống năng động. Tôi rất tự tin và tin rằng công nghệ này có thể làm được điều đó.

Chúng tôi hiện đang hợp tác với các nghệ sĩ, nghệ sĩ hình ảnh, nhạc sĩ để hiểu nhu cầu của mọi người. Thật đáng tiếc, mọi người có ý kiến rất khác nhau...

Với tư cách là người dùng thông thường, bạn có chấp nhận những bản nhạc do AI sáng tạo không, hoặc bạn có mong muốn AI trò chuyện với bạn hát vài câu không, hãy chia sẻ với chúng tôi trong phần bình luận.

Bài viết này đến từ trang WeChat "APPSO", tác giả: Phát hiện sản phẩm ngày mai, được 36kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận