Google vừa phát hành Gemini 2.5, một mô hình âm thanh gốc cho Flash, không chỉ giữ nguyên ngữ điệu cho việc dịch giọng nói theo thời gian thực mà còn cho phép trí tuệ nhân tạo thực hiện các lệnh phức tạp và hội thoại liên tục một cách tự nhiên và trôi chảy, giống như con người. Bản cập nhật này đánh dấu một bước tiến lớn của trí tuệ nhân tạo từ "chuyển văn bản thành giọng nói" đơn giản sang kỷ nguyên "tương tác giống con người" thực sự.
Hãy tưởng tượng tình huống này:
Bạn dạo bước trên những con phố nhộn nhịp của Mumbai, Ấn Độ, đeo tai nghe, xung quanh là tiếng rao hàng ồn ào và tiếng Hindi mà bạn hoàn toàn không hiểu.
Lúc này, một người đàn ông địa phương vội vàng hỏi bạn đường bằng tiếng Hindi. Ông ta nói rất nhanh và với giọng điệu lo lắng.
Trước đây, bạn có thể phải vội vàng lấy điện thoại ra, mở ứng dụng dịch thuật, nhấn nút, lúng túng đưa điện thoại đến gần miệng người nói, rồi lắng nghe bản dịch máy vô cảm phát ra từ điện thoại.
Đồ họa Nano Banana Pro
Nhưng giờ đây, mọi thứ đã thay đổi.
Bạn đứng im, và giọng nói tiếng Trung Quốc trôi chảy vang lên qua tai nghe: " Này bạn, xin lỗi, đây có phải là đường đến ga tàu không? "
Điều đáng kinh ngạc nhất là câu tiếng Trung này không chỉ truyền tải chính xác ý nghĩa mà còn tái hiện hoàn hảo giọng điệu lo lắng và thở hổn hển của người chú!
Khi bạn trả lời bằng tiếng Trung, tai nghe sẽ tự động chuyển giọng nói của bạn sang tiếng Hindi và truyền đến người bên kia, thậm chí vẫn giữ nguyên giọng điệu nhiệt tình của bạn.
Đây không chỉ là bản tái hiện Tháp Babel từ bộ phim khoa học viễn tưởng; mà còn là một thông tin gây chấn động mà Google vừa công bố tuần này — Gemini 2.5 Flash Native Audio .
Hôm nay, chúng ta hãy cùng tìm hiểu kỹ hơn về sức mạnh thực sự của bản cập nhật lần .
Điều gì thực sự làm cho "âm thanh gốc" trở nên mạnh mẽ đến vậy?
Nhiều người có thể hỏi, "Chẳng phải tất cả điện thoại thông minh hiện nay đều có chức năng chuyển văn bản thành giọng nói sao? Chức năng này có gì đặc biệt?"
Ở đây có một sự hiểu lầm rất lớn.
Trước đây, quy trình tương tác giọng nói với AI diễn ra như sau: nghe âm thanh -> chuyển đổi thành văn bản -> AI suy nghĩ về văn bản -> tạo câu trả lời bằng văn bản -> chuyển đổi thành giọng nói và đọc to.
Quá trình này không chỉ chậm chạp mà trong quá trình "quay vòng luẩn quẩn", tất cả những điều tinh tế nhất trong giao tiếp của con người —giọng điệu, khoảng lặng và cảm xúc— đều bị mất đi.
Cốt lõi của công nghệ Gemini 2.5 Flash Native Audio lần được Google phát hành nằm ở từ " Native" .
Nó không cần phải chuyển đổi âm thanh thành văn bản rồi lại ngược lại; nó cho phép bạn nghe, suy nghĩ và nói trực tiếp .
Ví dụ, nó giống như việc trò chuyện với người nước ngoài. Trước đây, bạn sẽ phải tra từ điển một cách vội vã, nhưng giờ đây bạn đã có "cảm nhận" về ngôn ngữ và có thể nói chuyện trôi chảy.
Lần, Google không chỉ nâng cấp mô hình chuyển văn bản thành giọng nói cho Gemini 2.5 Pro và Flash, mà còn mang lại khả năng điều khiển tốt hơn.
Quan trọng hơn, nó đã biến các tổng đài viên trực tiếp thành hiện thực.
Điều đó có nghĩa là gì?
Điều này có nghĩa là trong Google AI Studio, Vertex AI, và thậm chí cả Search Live, bạn không còn nói chuyện với một cỗ máy lạnh lùng, vô cảm nữa, mà thay vào đó là tham gia vào quá trình động não theo thời gian thực với một tác nhân thông minh có "não" và "tai".
Phiên dịch đồng thời qua tai nghe phá vỡ tháp Babel của ngôn ngữ.
Tính năng thú vị nhất đối với người dùng thông thường trong bản cập nhật lần chắc chắn là chức năng Dịch giọng nói trực tiếp.
Lần, Google không chỉ đưa ra những lời hứa suông; tính năng này hiện đã được thử nghiệm beta trên các thiết bị Android tại Mỹ, Mexico và Ấn Độ thông qua ứng dụng Google Translate (người dùng iOS hãy kiên nhẫn, tính năng này sẽ sớm có mặt).
Tính năng này có hai điểm nổi bật giúp giải quyết trực tiếp các vấn đề khó khăn:
Giám sát liên tục và đối thoại hai chiều: dịch thuật thực sự "liền mạch".
Điều khó chịu nhất khi sử dụng phần mềm dịch thuật trước đây là phải liên tục nhấn nút "phát âm".
Gemini hiện hỗ trợ giám sát liên tục .
Bạn có thể bỏ điện thoại vào túi, đeo tai nghe, Gemini sẽ tự động dịch các ngôn ngữ khác nhau mà bạn nghe thấy xung quanh sang ngôn ngữ mẹ đẻ của bạn trong thời gian thực.
Điều này tương đương với việc bạn luôn có một người phiên dịch vô hình bên cạnh.
Ở chế độ đối thoại hai chiều , nó thậm chí còn thông minh hơn.
Ví dụ, bạn nói tiếng Anh và muốn trò chuyện với người nói tiếng Hindi.
Gemini có khả năng tự động nhận biết ai đang nói.
Bạn nghe tiếng Anh qua tai nghe, nhưng khi bạn nói xong, điện thoại sẽ tự động phát tiếng Hindi cho người bên kia nghe.
Bạn không cần phải thiết lập "Bây giờ tôi nói" hay "Bây giờ anh ấy nói", hệ thống sẽ tự động chuyển đổi.
Chuyển đổi phong cách: ngay cả "tâm lý" cũng có thể được chuyển tải.
Đây là tính năng khiến tôi nổi da gà nhất – Chuyển đổi phong cách .
Bản dịch truyền thống là một cỗ máy đọc "thiếu cảm xúc".
Nhưng Gemini sử dụng khả năng âm thanh vốn có của mình để nắm bắt những sắc thái tinh tế trong ngôn ngữ con người.
Nếu người kia nói với giọng điệu vui vẻ và nhịp điệu nhanh, âm thanh được dịch ra cũng sẽ vui vẻ;
Nếu giọng điệu của người đối diện nhỏ nhẹ và ngập ngừng, thì giọng nói được dịch cũng sẽ nghe có vẻ ngập ngừng.
Nó giữ nguyên ngữ điệu, nhịp điệu và cao độ của người nói .
Đây không chỉ là việc hiểu ý nghĩa, mà còn là hiểu thái độ .
Tính năng này vô cùng cần thiết trong các cuộc đàm phán hoặc tranh luận kinh doanh!
Ngoài ra, nó còn hỗ trợ:
- Hơn 70 ngôn ngữ và hơn 2.000 cặp ngôn ngữ : bao gồm các ngôn ngữ mẹ đẻ của phần lớn người dân trên thế giới.
- Nhập liệu đa ngôn ngữ : Ngay cả khi một cuộc hội thoại chứa nhiều ngôn ngữ khác nhau, hệ thống vẫn có thể hiểu chúng đồng thời mà không cần bạn phải tự chuyển đổi giữa các ngôn ngữ.
- Khả năng chống nhiễu : Được tối ưu hóa đặc biệt cho hoàn cảnh ồn ào, lọc bỏ tiếng ồn bối cảnh. Bạn có thể nghe rõ mọi thứ ngay cả ở chợ ngoài trời ồn ào.
Các nhà phát triển vô cùng vui mừng; cuối cùng thì trí tuệ nhân tạo này đã "hiểu được lời nói của con người"!
Nếu bạn là nhà phát triển hoặc muốn xây dựng trí tuệ nhân tạo hỗ trợ khách hàng cho doanh nghiệp của mình, lần cải tiến khả năng cơ bản mà Gemini 2.5 Flash Native Audio mang lại chắc chắn sẽ là một trợ giúp kịp thời.
Gọi hàm chính xác hơn
Trước đây, trợ lý giọng nói thường dễ bị kẹt hoặc đưa ra câu trả lời cứng nhắc khi thực hiện các thao tác yêu cầu truy cập dữ liệu bên ngoài, chẳng hạn như kiểm tra thời tiết hoặc chuyến bay.
Phiên bản Gemini 2.5 hiện tại biết khi nào cần truy xuất thông tin thời gian thực và có thể tích hợp dữ liệu đã truy xuất vào phản hồi bằng giọng nói một cách liền mạch mà không làm gián đoạn cuộc hội thoại.
Trong bài kiểm tra ComplexFuncBench Audio, chuyên đánh giá các lệnh gọi hàm đa bước phức tạp, Gemini 2.5 đạt điểm số cao 71,5%, vượt xa các đối thủ cạnh tranh.
So sánh hiệu năng của Gemini 2.5 Flash Native Audio phiên bản cập nhật với các phiên bản trước đó và các đối thủ cạnh tranh trong ngành trên ComplexFuncBench.
Điều này có nghĩa là nó thực sự có thể đóng vai trò là một "nhân viên" đáng tin cậy, chứ không phải là một kẻ lắm mồm ngây thơ và thiếu hiểu biết.
Tuân thủ chỉ dẫn tốt hơn.
Bạn có thường cảm thấy trí tuệ nhân tạo không thể hiểu được những chỉ dẫn phức tạp không?
Lần Google đã bỏ ra rất nhiều công sức.
Mô hình mới đã cải thiện tỷ lệ tuân thủ hướng dẫn của nhà phát triển từ 84% lên 90% !
Điều này có nghĩa là nếu bạn yêu cầu AI "phản hồi theo định dạng cụ thể này, với giọng điệu nghiêm khắc và không dùng những từ ngữ không cần thiết", nó có thể thực hiện yêu cầu của bạn chính xác hơn.
Đối với việc xây dựng các dịch vụ cấp doanh nghiệp, độ tin cậy này là lợi thế cạnh tranh cốt lõi.
Đối thoại trôi chảy hơn
Đối thoại nhiều lượt là một thách thức lâu dài đối với trí tuệ nhân tạo.
Trong lúc trò chuyện, trí tuệ nhân tạo đã quên mất những gì mình đã nói trước đó.
Gemini 2.5 đã đạt được những tiến bộ đáng kể về ngữ cảnh truy xuất .
Nó có thể ghi nhớ các cuộc hội thoại trước đó hiệu quả hơn, giúp toàn bộ quá trình giao tiếp không chỉ mạch lạc mà còn logic.
Kết hợp với độ trễ thấp của âm thanh gốc, bạn sẽ cảm thấy như thể thực sự có một người đang ngồi ở đầu dây bên kia.
Chúng ta còn cách "Jarvis" bao xa?
Bản cập nhật lần từ Google thực chất đang gửi đi một tín hiệu rõ ràng:
Tương tác bằng giọng nói đang trở thành cánh cửa dẫn đến kỷ nguyên tiếp theo.
Từ Gemini Live đến Search Live, và giờ là dịch thuật thời gian thực trong tai nghe, Google đang giải phóng trí tuệ nhân tạo khỏi màn hình và đưa nó vào tai chúng ta.
Đối với người dùng thông thường : rào cản ngôn ngữ đang được loại bỏ nhờ công nghệ.
Năm tới (2026), tính năng này sẽ mở rộng sang nhiều sản phẩm hơn thông qua API Gemini .
Có lẽ trong tương lai, chúng ta sẽ không còn cần phải mất nhiều năm vất vả ghi nhớ từ vựng nữa; chỉ cần một cặp tai nghe là đủ để chúng ta du lịch vòng quanh thế giới.
Đối với doanh nghiệp : Rào cản gia nhập thị trường để xây dựng hệ thống dịch vụ khách hàng AI thế hệ tiếp theo có khả năng lắng nghe, nói chuyện, xử lý tác vụ và thể hiện tâm lý đang được giảm thiểu đáng kể.
Trứng Phục Sinh
Bên cạnh các mô hình âm thanh gốc, Google cũng đã phát hành một sản phẩm thử nghiệm ở cấp độ hạt nhân - Disco.
Đây là một công cụ khám phá mới từ Google Labs được sử dụng để thử nghiệm các ý tưởng cho các mạng lưới tương lai.
Nó tích hợp GenTabs, một công cụ mạnh mẽ được xây dựng trên nền tảng Gemini 3 mạnh mẽ nhất của Google.
Google cho biết dự án vẫn đang trong giai đoạn đầu và không phải tất cả các tính năng đều sẽ hoạt động hoàn hảo.
Tính năng ấn tượng nhất của nó là khả năng hiểu được nhu cầu của bạn.
GenTabs giúp điều hướng trên nhiệm vụ bằng cách chủ động hiểu nhiệm vụ phức tạp (thông qua các tab đang mở và lịch sử trò chuyện của người dùng) và tạo ra các ứng dụng web tương tác.
Không cần viết một dòng mã nào, nó trực tiếp biến các tab lộn xộn và lịch sử trò chuyện của bạn thành một ứng dụng tương tác được cá nhân hóa.
Bạn muốn lập kế hoạch bữa ăn hàng tuần? Bạn muốn dạy con mình về các hành tinh?
Chỉ cần nói chuyện với nó bằng ngôn ngữ đơn giản, và nó sẽ tự động tạo ra các công cụ cho bạn. Tất cả dữ liệu đều có thể kiểm chứng và không bao giờ bịa đặt.
Phiên bản macOS hiện đã cho phép đăng ký trước. Mặc dù vẫn là phiên bản thử nghiệm ban đầu, nhưng nó chắc chắn đã biến "duyệt web" thành "sáng tạo".
Nhanh lên nào! Làn sóng này hiện đại hết mức có thể!
Thêm một điều nữa
Tốc độ phát triển công nghệ thường vượt quá sức tưởng tượng của chúng ta.
Hôm qua chúng ta còn cười nhạo Siri vì không hiểu được tiếng người, nhưng hôm nay Gemini đã bắt đầu giúp chúng ta giao tiếp cảm xúc xuyên ngôn ngữ.
Đừng chỉ xem; Gemini 2.5 Flash Native Audio hiện đã có sẵn trên Vertex AI và cũng có thể được dùng thử trong Google AI Studio.
Hãy trải nghiệm ngay bây giờ!
Có lẽ khi bạn nghe AI nói ngôn ngữ nước ngoài đầu tiên bằng giọng của bạn, bạn sẽ thực sự cảm nhận được rằng tương lai đã đến.
Tham khảo:
https://deepmind.google/blog/
https://x.com/GoogleAI/status/1999560839679082507?s=20
Gemini
Bài viết này được đăng tải từ tài khoản chính thức WeChat "New Intelligence" , tác giả: YHluck, và được xuất bản với sự cho phép của 36Kr.





