Musk x AI ra mắt tính năng "Sao chép giọng nói nhanh chóng": Tạo diễn viên lồng tiếng Grok của riêng bạn chỉ trong một phút với giọng nói tự nhiên.

Bài viết này được dịch máy
Xem bản gốc

Trong lĩnh vực trí tuệ nhân tạo tạo sinh, đặc biệt là nhận dạng giọng nói, xAI của Elon Musk đã phát động một cuộc tấn công mạnh mẽ chống lại các đối thủ cạnh tranh như OpenAI.

Vào ngày 30 tháng 4 năm 2026, xAI đã đưa ra thông báo chính thức , tuyên bố một bản cập nhật lớn cho nền tảng AI của mình - ra mắt đầy đủ các tính năng "Giọng nói tùy chỉnh""Thư viện giọng nói" mới, cho phép các cá nhân và doanh nghiệp tích hợp liền mạch "giọng nói của riêng họ" vào nhiều kịch bản ứng dụng AI khác nhau với rào cản gia nhập cực kỳ thấp.

Ghi âm trong chưa đầy 1 phút và tạo ngay giọng nói AI của riêng bạn.

Theo xAI, việc tạo ra một mô hình giọng nói AI cá nhân hóa giờ đây đơn giản hơn bao giờ hết. Người dùng chỉ cần ghi âm một đoạn giọng nói ngắn, tự nhiên, chỉ vài giây đến một phút trong bảng điều khiển xAI, và toàn bộ quá trình tạo mô hình có thể hoàn tất trong vòng chưa đầy hai phút .

Sau khi được tạo ra, giọng nói tùy chỉnh này có thể được sử dụng ngay lập tức trong dịch vụ Chuyển văn bản thành giọng nói (TTS) và API Trợ lý giọng nói của Grok. xAI chính thức nêu ra năm kịch bản ứng dụng cốt lõi cho công nghệ này:

  • Nhân viên chăm sóc khách hàng thương hiệu: Các doanh nghiệp có thể kích hoạt dịch vụ chăm sóc khách hàng bằng AI sử dụng giọng điệu nhất quán, đặc trưng cho thương hiệu để nâng cao hình ảnh doanh nghiệp.
  • Người sáng tạo nội dung và podcast: Người sáng tạo có thể sử dụng giọng nói của chính mình để thuyết minh video hoặc tạo sách nói trên quy mô lớn mà không cần phải đến phòng thu âm lần .
  • Giao tiếp đa ngôn ngữ: Cho phép các CEO của các tập đoàn đa quốc gia phát biểu các bài diễn thuyết quan trọng bằng giọng nói của chính họ, chuyển đổi liền mạch giữa nhiều ngôn ngữ (như tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Pháp, v.v.).
  • Trò chơi và Giải trí: Lồng tiếng nhanh chóng cho nhân vật NPC trong Metaverse hoặc trò chơi.
  • Hỗ trợ khả năng tiếp cận: Bảo tồn vĩnh viễn các đặc điểm giọng nói ban đầu của bệnh nhân mắc các bệnh hiếm gặp như ALS, những người sắp mất khả năng nói.

Cẩn thận với Deepfake! Việc tải lên các tệp âm thanh bị cấm; yêu cầu xác thực hai yếu tố.

Với sự phổ biến rộng rãi của công nghệ sao chép giọng nói, việc sử dụng công nghệ deepfake để mạo danh giọng nói của người nổi tiếng và thực hiện các hành vi gian lận viễn thông ngày càng trở nên phổ biến. Để ngăn chặn việc lạm dụng công nghệ này một cách độc hại, xAI đã triển khai các biện pháp bảo mật cực kỳ nghiêm ngặt.

xAI nhấn mạnh rằng hệ thống "tuyệt đối không thể sử dụng các bản ghi âm hiện có để sao chép âm thanh." Người dùng phải tự ghi âm trực tiếp, và hệ thống sẽ yêu cầu họ đọc to một "mật khẩu" được tạo ngẫu nhiên. Sau đó, AI sẽ xác minh nội dung thông qua chuyển đổi giọng nói thành văn bản và so sánh các vectơ nhúng của người nói để đảm bảo rằng người ghi âm mật khẩu chính là người trong bản ghi âm gốc. Cơ chế xác minh kép này về cơ bản ngăn chặn tin tặc sử dụng các tệp âm thanh của người khác để "đánh cắp âm thanh."

Thư viện giọng nói ra mắt; bạn có thể sử dụng giọng nói tùy chỉnh của riêng mình mà không phải trả thêm phí.

Bên cạnh các tính năng tùy chỉnh mạnh mẽ, xAI cũng lần ra mắt "Thư viện giọng nói", cho phép đội ngũ phát triển quản lý tất cả các giọng nói tùy chỉnh và tích hợp sẵn một cách thống nhất. Hiện tại, Thư viện giọng nói bao gồm hơn 80 giọng nói chất lượng cao và hỗ trợ tới 28 ngôn ngữ để người dùng có thể thoải mái dùng thử.

Điều khiến các nhà phát triển và doanh nghiệp hào hứng nhất là xAI tuyên bố rằng việc sử dụng chức năng giọng nói tùy chỉnh sẽ "hoàn toàn miễn phí" và hỗ trợ đầy đủ tất cả các tính năng nâng cao của hệ thống TTS gốc (như gắn thẻ giọng nói, truyền phát trực tiếp, v.v.). Người dùng có thể dễ dàng gọi chức năng này bằng cách chỉ định một voice_id duy nhất trong API, điều này chắc chắn sẽ giảm đáng kể chi phí cho các doanh nghiệp khi triển khai AI giọng nói tùy chỉnh.

加入動區 Telegram 頻道

📍 Các báo cáo liên quan📍

Musk từ chối triệu tập từ các công tố viên Pháp; cuộc điều tra về việc Grok tạo ra hình ảnh khiêu dâm Deepfake và thuật toán X vẫn đang tiếp diễn.

xAI được bí mật ra mắt Grok 4.3: trực tiếp tạo ra các tệp Word, PPT và Excel, làm suy yếu hệ thống bảo vệ của Microsoft.

Bạn thích giọng nói của Tesla hơn? xAI chính thức ra mắt API giọng nói Grok, đạt được mức giá 4,2 đô la/triệu ký tự trong chuyển văn bản thành giọng nói (TTS) và vượt qua ElevenLabs về tỷ lệ nhận dạng.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận