OpenAI bước vào cuộc chiến mô hình giọng nói với GPT-RealTime mạnh mẽ nhất, tăng năng lực và giảm giá thành.

avatar
36kr
08-29
Bài viết này được dịch máy
Xem bản gốc

Theo Zhidongxi vào ngày 29 tháng 8, sáng sớm nay, OpenAI đã phát hành GPT-RealTime, một mô hình chuyển giọng nói thành giọng nói được xây dựng dành cho các nhà phát triển và đồng thời cập nhật các chức năng API bao gồm hỗ trợ máy chủ MCP từ xa, nhập hình ảnh và hỗ trợ cuộc gọi điện thoại SIP (Giao thức khởi tạo phiên).

OpenAI tuyên bố đây là mô hình tổng hợp giọng nói tiên tiến nhất của họ cho đến nay, với GPT-RealTime cải thiện khả năng tuân theo các hướng dẫn phức tạp, gọi chính xác các công cụ và tạo ra giọng nói tự nhiên và biểu cảm hơn. Mô hình có thể đọc thuộc lòng các chữ cái và số lặp đi lặp lại một cách tự nhiên, chuyển đổi ngôn ngữ liền mạch và thậm chí thu thập các tín hiệu phi ngôn ngữ như tiếng cười.

Hôm nay, OpenAI cũng đã phát hành hai giọng nói mới là Cedar và Marin , sẽ chỉ có sẵn trong Realtime API.

Về giá cả, phiên bản chung của Realtime API và mô hình GPT-RealTime mới sẽ mở cửa cho tất cả các nhà phát triển kể từ hôm nay. Giá của GPT-RealTime là 32 đô la Mỹ (khoảng 228 Nhân dân tệ) cho mỗi triệu token âm thanh đầu vào, 0,4 đô la Mỹ (khoảng 2,85 Nhân dân tệ) cho mỗi triệu token đầu vào được lưu trong bộ nhớ đệm và 64 đô la Mỹ (khoảng 456 Nhân dân tệ) cho mỗi triệu token âm thanh đầu ra. Giá của GPT-RealTime thấp hơn 20% so với gpt-4o-realtime-preview.

OpenAI đã bổ sung khả năng kiểm soát chi tiết đối với ngữ cảnh hội thoại, cho phép các nhà phát triển đặt giới hạn mã thông báo thông minh và cắt bớt nhiều lượt cùng một lúc, giúp giảm đáng kể chi phí cho các cuộc hội thoại dài.

Tháng 10 năm ngoái, OpenAI đã phát hành phiên bản beta công khai của Realtime API và hàng nghìn nhà phát triển đã sử dụng API này và đưa ra các đề xuất kể từ đó.

Nhưng xét theo những bình luận của OpenAI trên nền tảng xã hội X, một số người dùng rất kỳ vọng vào mô hình mới, cho rằng các ứng dụng giọng nói sẽ trở nên thú vị hơn, nhưng một số nhà phát triển cũng phản ánh rằng giọng nói của mô hình vẫn nghe rất giống robot và giọng nói nhân vật cũ chỉ biểu cảm hơn một chút.

Về mô hình giọng nói, tiến độ đang tăng tốc cả trong nước và quốc tế. Đầu tháng này, MiniMax, một trong sáu nhà phát triển mô hình hàng đầu Trung Quốc, đã phát hành Speech 2.5, một mô hình tạo giọng nói hỗ trợ hơn 40 ngôn ngữ. Đầu năm nay, ứng dụng Doubao cũng đã cập nhật tính năng gọi thoại thời gian thực, hiện đã có sẵn miễn phí cho người dùng. Tính năng này có thể bắt chước nhiều giọng nói khác nhau và phát hiện tâm lý. Cùng ngày với OpenAI, Microsoft đã ra mắt MAI-Voice-1, mô hình tạo giọng nói tự nhiên và có khả năng biểu cảm cao đầu tiên, có khả năng tạo ra âm thanh với nhiều cách diễn giải khác nhau dựa trên cùng một lời nhắc.

01. Mua nhà, mua vé, đặt lịch hẹn với bác sĩ, bạn có thể nói chuyện như một người bạn

OpenAI đã công bố một ví dụ về việc hợp tác với năm công ty để xây dựng trợ lý giọng nói trên blog của mình.

Đầu tiên là Zillow, một nền tảng dịch vụ thông tin bất động sản của Mỹ. Mô hình mới của OpenAI có thể giao tiếp với người dùng thông thường để giúp họ sàng lọc bất động sản dựa trên nhu cầu lối sống hoặc phân tích giá mua, v.v.

Thứ hai, với tư cách là trợ lý di động của T-Mobile, trợ lý AI có thể nhanh chóng chuyển đổi cuộc trò chuyện và sẽ không bị ảnh hưởng ngay cả khi người dùng ngắt lời giữa câu để bắt đầu một chủ đề mới.

Thứ ba là nền tảng mua bán vé StubHub. Mô hình mới của OpenAI có thể hỗ trợ người dùng thanh toán và hướng dẫn các vấn đề gặp phải trong quá trình thanh toán.

Thứ tư là hỗ trợ người dùng đặt lịch hẹn với bác sĩ qua điện thoại. Trên nền tảng của Oscar Health, mô hình mới này có thể giúp người dùng xác nhận thời gian hẹn, các lưu ý khi đặt lịch hẹn và địa chỉ hẹn.

Cuối cùng là công ty công nghệ bảo hiểm Lemonade. Khi người dùng gặp vấn đề về bảo hiểm khi mua xe, trợ lý AI có thể hỗ trợ mua hàng cho người dùng, tiếp nhận yêu cầu của người dùng trong quá trình trò chuyện, sau đó thực hiện giao dịch mua dựa trên thông tin cá nhân và thẻ ngân hàng được lưu trữ nội bộ của người dùng.

02. Ghi lại tiếng cười, chuyển đổi ngôn ngữ và điều chỉnh tông giọng một cách liền mạch

OpenAI đã cải thiện chất lượng âm thanh của GPT-RealTime, hiểu được hướng dẫn của người dùng và làm theo hướng dẫn.

Để các tác nhân giọng nói có thể thực hiện các cuộc trò chuyện liên tục, các mô hình phải có ngữ điệu, cảm xúc và nhịp điệu giống con người để tạo ra trải nghiệm trò chuyện dễ chịu. Bài đăng trên blog đề cập rằng GPT-RealTime có thể tạo ra giọng nói tự nhiên, chất lượng cao hơn và có thể tuân theo các hướng dẫn chi tiết, chẳng hạn như "nói nhanh và chuyên nghiệp" hoặc "nói một cách thông cảm với giọng Pháp".

Về khả năng hiểu lệnh của người dùng, GPT-RealTime có thể nắm bắt các tín hiệu phi ngôn ngữ như tiếng cười, chuyển đổi ngôn ngữ trong câu và điều chỉnh giọng điệu . Theo đánh giá nội bộ của OpenAI, mô hình cũng chính xác hơn trong việc phát hiện các chuỗi chữ và số như số điện thoại trong các ngôn ngữ như tiếng Tây Ban Nha, tiếng Trung, tiếng Nhật và tiếng Pháp.

Trong đánh giá Big Bench Audio, GPT-RealTime đạt độ chính xác 82,8% , vượt qua mô hình cũ của OpenAI được phát hành vào tháng 12 năm 2024. Điểm chuẩn Big Bench Audio là một dữ liệu đánh giá để đánh giá khả năng suy luận của các mô hình ngôn ngữ hỗ trợ đầu vào âm thanh.

Khi xây dựng một ứng dụng chuyển giọng nói thành giọng nói, các nhà phát triển cung cấp cho mô hình sê-ri các hướng dẫn hành vi, bao gồm cách nói, những gì cần nói trong các tình huống cụ thể, những gì nên làm và không nên làm. OpenAI tập trung vào việc cải thiện mức độ tuân thủ các hướng dẫn này của mô hình, để ngay cả những hướng dẫn nhỏ cũng có thể truyền tải nhiều thông tin hơn đến mô hình.

Trong bài kiểm tra chuẩn âm thanh MultiChallenge, đo độ chính xác khi thực hiện lệnh, GPT-RealTime đạt điểm 30,5% , cải thiện đáng kể so với mức 20,6% của mô hình trước đó. MultiChallenge đánh giá mức độ xử lý các cuộc trò chuyện nhiều lượt với con người của các mô hình lớn. OpenAI đã chọn một tập hợp con các câu hỏi kiểm tra phù hợp với bài thuyết trình âm thanh, chuyển đổi chúng thành giọng nói bằng công nghệ chuyển văn bản thành giọng nói (TTS) và tạo ra phiên bản âm thanh của đánh giá lần .

Để xây dựng một tác nhân giọng nói mạnh mẽ với mô hình chuyển đổi giọng nói thành giọng nói, mô hình phải có khả năng gọi đúng công cụ vào đúng thời điểm . OpenAI đã cải thiện các lệnh gọi hàm theo ba khía cạnh: gọi các hàm liên quan, gọi các hàm vào đúng thời điểm và gọi các hàm với tham số phù hợp. Trong đánh giá âm thanh ComplexFuncBench, đo lường hiệu suất gọi hàm, GPT-RealTime đạt 66,5% , vượt qua mô hình trước đó. Mô hình chúng tôi phát hành vào tháng 12 năm 2024 đạt 49,7%.

Ngoài ra, OpenAI đã cải thiện các lệnh gọi hàm bất đồng bộ. Các lệnh gọi hàm chạy lâu không còn làm gián đoạn luồng hội thoại, cho phép mô hình tiếp tục cuộc trò chuyện một cách mượt mà trong khi chờ kết quả. Tính năng này được hỗ trợ sẵn trong GPT-RealTime, vì vậy các nhà phát triển không cần phải cập nhật mã của họ.

03. Giữ nguyên sắc thái giọng nói và thêm bốn tính năng API RealTime mới

Không giống như các quy trình Chuỗi đa mô hình truyền thống để chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói, API thời gian thực trực tiếp xử lý và tạo âm thanh thông qua một mô hình và API duy nhất, giúp giảm độ trễ, giữ nguyên sắc thái trong giọng nói và làm cho phản hồi tự nhiên và biểu cảm hơn.

Các tính năng mới của RealTime API bao gồm:

Nhà phát triển có thể bật hỗ trợ MCP trong một phiên bằng cách truyền URL của máy chủ MCP từ xa vào cấu hình phiên. Sau khi kết nối, API sẽ tự động xử lý các lệnh gọi công cụ, giúp nhà phát triển không cần phải thiết tích hợp thủ công.

Thiết lập này cho phép các nhà phát triển chỉ cần trỏ phiên của họ tới một máy chủ MCP khác và nó sẽ hoạt động ngay lập tức.

Về đầu vào hình ảnh , các nhà phát triển có thể thêm hình ảnh, ảnh chụp và ảnh chụp màn hình vào các phiên API thời gian thực để sử dụng với âm thanh hoặc văn bản. Giờ đây, mô hình có thể xây dựng một cuộc trò chuyện dựa trên những gì người dùng thực sự nhìn thấy, cho phép người dùng đặt các câu hỏi như "Bạn thấy gì?" hoặc "Đọc văn bản trong ảnh chụp màn hình này".

Thay vì xử lý hình ảnh như một luồng video trực tiếp, hệ thống hoạt động giống như việc thêm hình ảnh vào cuộc trò chuyện hơn. Ứng dụng của nhà phát triển có thể quyết định hình ảnh nào sẽ được chia sẻ với mô hình và khi nào, cho phép họ kiểm soát những gì mô hình nhìn thấy và thời điểm phản hồi.

OpenAI cũng đã bổ sung các tính năng giúp tích hợp API thời gian thực dễ dàng hơn, bao gồm hỗ trợ Giao thức khởi tạo phiên (SIP) và lời nhắc có thể tái sử dụng .

Hỗ trợ SIP kết nối các ứng dụng của nhà phát triển trực tiếp với mạng điện thoại công cộng, hệ thống PBX, điện thoại văn phòng và các điểm cuối SIP khác thông qua API thời gian thực.

Lời nhắc có thể tái sử dụng cho phép nhà phát triển lưu và tái sử dụng lời nhắc, bao gồm tin nhắn nhà phát triển, công cụ, biến và tin nhắn mẫu của người dùng/trợ lý. Chúng có thể được sử dụng trên các phiên API thời gian thực, phù hợp với logic sử dụng của API Phản hồi.

04. Kết luận: Thiết lập các hướng dẫn bảo vệ nhiều lớp để ngăn chặn việc lạm dụng mô hình

Để ngăn chặn các cuộc trò chuyện thoại thời gian thực bị lạm dụng, API thời gian thực bao gồm nhiều lớp bảo mật và biện pháp giảm thiểu. OpenAI sử dụng bộ phân loại chủ động cho các cuộc trò chuyện API thời gian thực, nghĩa là nếu phát hiện một số cuộc trò chuyện vi phạm nguyên tắc về nội dung có hại, chúng có thể bị dừng giữa chừng. Các nhà phát triển cũng có thể sử dụng SDK Agents để bổ sung các biện pháp bảo mật bổ sung của riêng họ.

Hiện tại, các cuộc trò chuyện thoại thời gian thực siêu thực đã chứng minh được nhiều ứng dụng đa dạng. Các cuộc trò chuyện thoại thời gian thực của Doubao và nhân viên kỹ thuật số lần ra mắt của Baidu đều sử dụng giọng nói làm hình thức tương tác chính với người dùng. Ngoài ra, mô hình chuyển giọng nói thành giọng nói mới do OpenAI phát hành cũng thể hiện khả năng lập luận mạnh mẽ hơn và biểu đạt giọng nói tự nhiên hơn, cho phép AI xử lý các yêu cầu phức tạp gồm nhiều bước và xây dựng các tác nhân AI trong nhiều lĩnh vực khác nhau.

Bài viết này được trích từ tài khoản WeChat công khai "Zhidongxi" (ID: zhidxcom) , tác giả: Cheng Qian, biên tập: Li Shuiqing và được 36Kr cấp phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận