Mục lục lục
ToggleGoogle hiện đang tập trung nỗ lực vào lĩnh vực giọng nói, với việc chính thức ra mắt Gemini 3.1 Flash TTS vào ngày 15. Với tính năng mới "thẻ âm thanh", Google hướng đến việc cho phép các nhà phát triển lên lịch chính xác từng chi tiết của giọng nói AI với các lệnh văn bản, giống như một đạo diễn phim.
Theo thông báo chính thức của Google , Gemini 3.1 Flash TTS sẽ được ra mắt đồng thời trên ba nền tảng bắt đầu từ hôm nay: các nhà phát triển có thể trải nghiệm trước tiên thông qua API Gemini và Google AI Studio; người dùng doanh nghiệp có thể truy cập thông qua Vertex AI; và người dùng Google Workspace cùng tài khoản cá nhân có thể sử dụng trực tiếp trong Google Vids. 16 ngôn ngữ mới sẽ được bổ sung ra mắt.
Elo 1,211 xếp hạng cao
Về chất lượng, Google đã trực tiếp trích dẫn dữ liệu từ bên thứ ba để chứng minh cho tuyên bố của mình: trên bảng xếp hạng TTS phân tích nhân tạo (thu thập hàng nghìn ý kiến đánh giá chủ quan từ người dùng), Flash TTS 3.1 đạt điểm Elo 1.211 và được xếp vào "Góc phần tư hấp dẫn nhất", cho thấy nó đồng thời sở hữu những ưu điểm của việc tạo giọng nói chất lượng cao và chi phí thấp. Nó hỗ trợ hơn 70 ngôn ngữ và hỗ trợ tự nhiên các kịch bản hội thoại đa người nói.
Thẻ âm thanh: Trao ghế giám đốc cho các nhà phát triển
Bản cập nhật công nghệ quan trọng nhất là "Thẻ âm thanh" (Audio Tags), cho phép các nhà phát triển nhúng các lệnh ngôn ngữ tự nhiên trực tiếp vào văn bản nhập, giúp kiểm soát chi tiết hơn giọng nói AI và vượt ra ngoài việc chỉ dựa vào các mô hình để đoán ngữ điệu. Google chia toàn bộ trải nghiệm thành ba lớp:
Theo kịch bản : Các nhà phát triển xác định hoàn cảnh bối cảnh cung cấp các hướng dẫn hội thoại cụ thể, cho phép nhân vật khác nhau duy trì trạng thái "đắm chìm" trong nhiều vòng hội thoại, với sự chuyển đổi giọng điệu tự nhiên.
Độ chính xác đến từng giọng nói : Giọng nói nhân vật được định hình thông qua Hồ sơ Âm thanh độc đáo, và nhịp điệu, âm sắc và ngữ điệu được thay đổi linh hoạt bằng Ghi chú của Đạo diễn; Thẻ Nội tuyến cho phép người nói tạm thời thay đổi biểu cảm của họ giữa chừng câu nói.
Xuất khẩu liền mạch : Sau khi xác nhận các thông số hiệu suất, chúng có thể được xuất trực tiếp dưới dạng mã API Gemini , đảm bảo khả năng nhận dạng âm thanh nhất quán trên các dự án và nền tảng.
Những người tiên phong sử dụng công nghệ này như StyleUAI, HeyGen, Invideo AI và Sierra đã đưa ra phản hồi tích cực, nhận xét rằng công nghệ này có thể biến văn bản thông thường thành các bản ghi âm giàu cảm xúc.
Công nghệ thủy dấu SynthID đánh dấu toàn diện cho âm thanh do AI tạo ra.
Trong khi đó, tất cả âm thanh được tạo ra bởi Gemini 3.1 Flash TTS đều có dấu bản quyền SynthID tích hợp. Đây là một đánh dấu tinh tế, vô hình được lồng ghép trực tiếp vào dạng sóng âm thanh, có thể được hệ thống phát hiện một cách đáng tin cậy, giúp xác định nội dung do AI tạo ra và ngăn chặn sự lan truyền thông tin sai lệch. Điều này cũng là một phần trong nỗ lực không ngừng của Google nhằm nâng cao cơ chế truy vết nội dung AI của mình.
Nhìn chung, định vị của Flash TTS 3.1 rất rõ ràng: nó hoàn thiện bức tranh tổng thể về giọng nói trong hệ sinh thái Gemini với bộ ba "chất lượng cao, chi phí thấp và khả năng điều khiển mạnh mẽ". Việc giới thiệu thẻ âm thanh giúp cho việc điều khiển bằng giọng nói theo kiểu đạo diễn, vốn trước đây chỉ tồn tại trong các phòng thu âm chuyên nghiệp, trở nên dễ tiếp cận hơn với các nhà phát triển trên toàn cầu thông qua API.




