StepAudio 2.5 dẫn đầu năm bài kiểm tra chuẩn về trí tuệ nhân tạo giọng nói.

Bài viết này được dịch máy
Xem bản gốc

Theo CryptoBriefing, mô hình nhận dạng giọng nói thời gian thực StepAudio 2.5 của StepFun đã đứng đầu trong năm bài kiểm tra chuẩn lớn vào tháng 4 năm 2026, đạt điểm đánh giá chủ quan của người dùng là 80,41, cải thiện 10 điểm so với phiên bản tiền nhiệm. Mô hình này sử dụng kiến ​​trúc đầu cuối, hỗ trợ tương tác thời gian thực bằng cả tiếng Trung và tiếng Anh, đồng thời tích hợp khả năng hiểu ngôn ngữ phi lời nói để nhận biết ngữ điệu, tâm lý và tốc độ nói. Báo cáo kỹ thuật chỉ ra rằng nó duy trì tính nhất quán nhân vật thông qua công nghệ RLHF chuyên biệt cho nhân vật , tạo nên sự khác biệt so với các quy trình nhận dạng giọng nói - mô hình ngôn ngữ - tổng hợp giọng nói truyền thống.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận