Sau đây là bản dịch tiếng Việt của văn bản, với các từ viết tắt và từ ngữ đã được dịch như yêu cầu:
Trong thế giới của các mô hình AI lớn trong tương lai, sức mạnh của Trung Quốc sẽ không vắng mặt và cũng sẽ không tụt hậu so với người khác.
Tác giả: Heng Yu, từ Ao Fei Tu
Nguồn ảnh: Được tạo bởi AI vô biên
Vừa rồi, Jiayu Star Alliance và Geely Automobile Group đã mở mã nguồn cho hai mô hình đa phương thức lớn!
Có 2 mô hình mới:
- Mô hình tạo video đa phương thức có quy mô tham số lớn nhất trên toàn cầu được mở mã nguồn, gọi là Step-Video-T2V
- Mô hình tương tác giọng nói cấp sản phẩm đầu tiên được mở mã nguồn, gọi là Step-Audio
Trong quá trình phát triển hai mô hình lớn này, hai bên đã bổ sung ưu điểm về Số lượng giao dịch trên mỗi giây, thuật toán và huấn luyện kịch bản, "đáng kể cải thiện hiệu suất của các mô hình đa phương thức lớn".
Theo báo cáo kỹ thuật chính thức công bố, hai mô hình được mở mã nguồn lần này đều có hiệu suất xuất sắc trong Benchmark, vượt qua các mô hình nguồn mở cùng loại trong nước và quốc tế.
Người phụ trách khu vực Trung Quốc của Gemini cũng đã đưa ra đánh giá cao.
Trọng điểm, "The next DeepSeek", "HUGE SoTA".
Vâng, phải không?
Vậy Tạp chí Lượng tử sẽ phải kiểm tra kỹ báo cáo kỹ thuật và thử nghiệm thực tế, xem liệu chúng có thực sự xứng danh như vậy không.
Hiện tại, hai mô hình nguồn mở mới này đã được tích hợp vào ứng dụng Yuanwen, để mọi người có thể trải nghiệm.
Lần đầu tiên, Jiayu Star Alliance mở mã nguồn các mô hình đa phương thức
Step-Video-T2V và Step-Audio là những mô hình đa phương thức đầu tiên được Jiayu Star Alliance mở mã nguồn.
Step-Video-T2V
Đầu tiên, hãy xem mô hình tạo video Step-Video-T2V.
Mô hình này có 30 tỷ tham số, là Mô hình tạo video nguồn mở lớn nhất trên toàn cầu hiện nay, hỗ trợ đầu vào bằng tiếng Trung và tiếng Anh.
Theo giới thiệu chính thức, Step-Video-T2V có 4 đặc điểm kỹ thuật chính:
Thứ nhất, có thể trực tiếp tạo ra video dài tối đa 204 khung hình, độ phân giải 540P, đảm bảo nội dung video được tạo ra có tính nhất quán và mật độ thông tin cao.
Thứ hai, đã thiết kế và huấn luyện Video-VAE có tỷ lệ nén cao để giải quyết nhiệm vụ tạo video, có thể nén video 16x16 lần về không gian và 8 lần về thời gian, trong khi vẫn đảm bảo chất lượng tái tạo video.
Thứ ba, đã tiến hành tối ưu hóa hệ thống sâu về siêu tham số, cấu trúc mô hình và hiệu suất huấn luyện của mô hình DiT, đảm bảo tính hiệu quả và ổn định của quá trình huấn luyện.
Thứ tư, mô tả chi tiết chiến lược huấn luyện đầy đủ bao gồm tiền huấn luyện và huấn luyện sau, các nhiệm vụ huấn luyện từng giai đoạn, mục tiêu học tập cũng như cách xây dựng và lọc dữ liệu.
Ngoài ra, ở giai đoạn cuối của quá trình huấn luyện, Step-Video-T2V đã giới thiệu Video-DPO (Tối ưu hóa ưu tiên video) - một thuật toán RL nhằm tối ưu hóa chất lượng tạo video, tăcường tính hợp lý và ổn định của video được tạo ra.
Kết quả cuối cùng là làm cho các video được tạo ra có chuyển động mượt mà hơn, chi tiết phong phú hơn, và sự phù hợp với chỉ dẫn chính xác hơn.
Để đánh giá toàn diện hiệu suất của các mô hình tạo video nguồn mở, Jiayu đã đồng thời công bố bộ dữ liệu chuẩn mới Step-Video-T2V-Eval để đánh giá chất lượng video được tạo ra.
Bộ dữ liệu này cũng được mở mã nguồn.
Nó bao gồm 128 câu hỏi đánh giá bằng tiếng Trung từ người dùng thực, nhằm đánh giá chất lượng video được tạo ra trong 11 loại nội dung khác nhau như chuyển động, phong cảnh, động vật, khái niệm kết hợp, siêu thực, v.v.
Kết quả đánh giá của Step-Video-T2V trên bộ dữ liệu này như sau:
Có thể thấy, Step-Video-T2V vượt trội so với các mô hình video nguồn mở tốt nhất trước đây về khả năng tuân thủ chỉ dẫn, độ mượt mà của chuyển động, tính hợp lý về mặt vật lý, và thẩm mỹ.
Điều này có nghĩa là, toàn bộ lĩnh vực tạo video đều có thể dựa trên mô hình cơ sở mạnh mẽ này để tiến hành nghiên cứu và sáng tạo.
Về hiệu quả thực tế, Jiayu giới thiệu rằng:
Về khả năng tạo, Step-Video-T2V có năng lực tạo ra mạnh mẽ trong các lĩnh vực như chuyển động phức tạp, nhân vật có thẩm mỹ, sức tưởng tượng trực quan, tạo văn bản cơ bản, đầu vào song ngữ Trung - Anh bản địa, và khả năng hiểu ngôn ngữ ảnh. Nó có thể hỗ trợ hiệu quả các nhà sáng tạo video thực hiện trình bày sáng tạo chính xác.
Vậy còn chờ gì nữa, hãy thử nghiệm thực tế!
Đầu tiên, kiểm tra xem Step-Video-T2V có thể đảm đương được chuyển động phức tạp không.
Trước đây, các mô hình tạo video thường gặp những hình ảnh kỳ lạ khi tạo các đoạn ballet/khiêu vũ tiêu chuẩn/múa Trung Quốc, thể dục nghệ thuật, karate, võ thuật, v.v.
Để kiểm tra vấn đề này, chúng tôi đã đưa ra một chỉ dẫn cụ thể:
Một sân cầu lông trong nhà, góc nhìn ngang, camera cố định ghi lại một cảnh một nam giới đang chơi cầu lông. Một người đàn ông mặc áo thun đỏ, quần short đen, cầm vợt cầu lông, đứng ở giữa sân cầu lông xanh. Lưới cầu lông ngang qua sân, chia sân thành hai phần. Người đàn ông vung vợt đánh bóng về phía bên kia. Ánh sáng sáng rõ và đều, hình ảnh rõ nét.
Về "nhân vật có thẩm mỹ", đây là thách thức thứ hai mà Tạp chí Lượng tử đưa ra cho Step-Video-T2V.
Thực sự mà nói, hiện nay các mô hình tạo ảnh từ văn bản đã có thể tạo ra hình ảnh người thật gần như thật về các chi tiết tĩnh và cục bộ.
Nhưng khi tạo video, một khi nhân vật bắt đầu chuyển động, vẫn tồn tại những khuyết điểm về mặt vật lý hoặc logic có thể nhận biết được.
Còn về hiệu suất của Step-Video-T2V thì...
"Không có cảm giác AI lắm."
Đây là nhận xét chung của các thành viên trong đội ngũ biên tập của Tạp chí Lượng tử sau khi xem video.
Nghĩa là, gương mặt có vẻ đẹp trai, với các chi tiết da, vết thương trên mặt rõ ràng, nhưng không có cảm giác "AI" như mắt trống rỗng, biểu cảm cứng nhắc.
Ở hai thử nghiệm trên, chúng tôi để Step-Video-T2V ở chế độ máy quay cố định.
Vậy khi có các chuyển động như đẩy, kéo, lắc, xoay, theo dõi thì sao?
Thử thách thứ ba là kiểm tra khả năng điều khiển máy quay của Step-Video-T2V, chẳng hạn như xoay, đẩy, kéo, lắc, theo dõi.
Nó có thể xoay, và cũng không tệ lắm! Có thể mang theo máy quay Steadicam đi quay phim rồi (đùa thôi).
Sau một số thử nghiệm, kết quả tạo ra cho thấy:
Step-Video-T2V thực sự nổi bật về khả năng hiểu ngữ nghĩa và tuân thủ chỉ dẫn, thậm chí cả khả năng tạo văn bản cơ bản cũng dễ dàng nắm bắt.
Step-Audio
Mô hình khác được mở mã nguồn cùng lúc là Step-Audio, là mô hình tương tác giọng nói cấp sản phẩm đầu tiên trong ngành được mở mã nguồn.
Trong hệ thống đánh giá đa chiều StepEval-Audio-360 do Jiayu xây dựng và mở mã nguồn, Step-Audio đạt kết quả tốt nhất trong các khía cạnh như lập luận logic, khả năng sáng tạo, khả năng điều khiển chỉ dẫn, năng lực ngôn ngữ, nhập vai, trò chơi chữ, giá trị cảm xúc, v.v.
Trên 5 bộ kiểm tra chính thức hàng đầu như LlaMA Question, Web Questions, Step-Audio đều đạt kết quả tốt nhất, vượt qua các mô hình nguồn mở cùng loại trong ngành.
Đặc biệt, kết quả của nó trong đánh giá HSK-6 (Kiểm tra trình độ tiếng Trung cấp 6) thật ấn tượng.
Kết quả thử nghiệm như sau:
Sau đây là bản dịch tiếng Việt của văn bản trên:
Đội ngũ Bước nhảy giới thiệu, Step-Audio có thể tạo ra cảm xúc, giọng địa phương, ngôn ngữ, giọng hát và phong cách cá nhân hóa dựa trên nhu cầu của từng bối cảnh khác nhau, có thể trao đổi tự nhiên và chất lượng cao với người dùng.
Đồng thời, giọng nói do nó tạo ra không chỉ có đặc điểm chân thực tự nhiên, EQ cao mà còn có thể thực hiện sao chép chất lượng cao và thể hiện vai trò.
Tóm lại, trong các ngành như giải trí, truyền thông xã hội, trò chơi, nhu cầu ứng dụng của Step-Audio sẽ khiến bạn hoàn toàn hài lòng.
Hệ sinh thái mã nguồn mở của Bước nhảy đang phát triển mạnh mẽ
Thế nào nhỉ, chỉ có một từ: Cuộn.
Bước nhảy thực sự đang cuộn, đặc biệt là trong lĩnh vực mô hình đa phương tiện của họ -
Các mô hình đa phương tiện trong dòng sản phẩm Step của họ đã là khách quen số một của các bảng xếp hạng, sân chơi đánh giá uy tín trong và ngoài nước từ khi ra đời.
Chỉ trong 3 tháng gần đây, họ đã liên tiếp giành ngôi vị số một.
Ngày 22 tháng 11 năm ngoái, trong bảng xếp hạng mới nhất của sân chơi mô hình lớn, mô hình đa phương tiện Step-1V đã lọt vào danh sách, với tổng điểm ngang bằng Gemini-1.5-Flash-8B-Exp-0827, đứng đầu mô hình lớn của Trung Quốc trong lĩnh vực thị giác.
Vào tháng 1 năm nay, trong bảng xếp hạng thời gian thực của nền tảng đánh giá mô hình lớn trong nước "Tỷ lệ băm" (OpenCompass), dòng mô hình đa phương tiện Step-1o mới ra mắt đã giành vị trí số một.
Cùng ngày, trong bảng xếp hạng mới nhất của sân chơi mô hình lớn, mô hình đa phương tiện Step-1o-vision đã giành vị trí số một mô hình lớn trong lĩnh vực thị giác của Trung Quốc.

Tiếp theo, không chỉ có hiệu suất và chất lượng tốt, tốc độ phát triển và cập nhật của các mô hình đa phương tiện của Bước nhảy cũng rất nhanh -
Cho đến nay, Bước nhảy đã lần lượt phát hành 11 mô hình đa phương tiện lớn.
Tháng trước, họ đã liên tiếp phát hành 6 mô hình trong 6 ngày, bao phủ toàn bộ các lĩnh vực như ngôn ngữ, giọng nói, thị giác, suy luận, tiếp tục khẳng định danh hiệu "Vua đa phương tiện".
Tháng này, họ lại mở mã nguồn 2 mô hình đa phương tiện nữa.
Chỉ cần duy trì được nhịp độ này, họ sẽ tiếp tục và liên tục chứng minh vị thế "Người chơi đa phương tiện toàn diện" của mình.
Nhờ sức mạnh đa phương tiện, từ năm 2024, thị trường và các nhà phát triển đã công nhận và rộng rãi tiếp cận API của Bước nhảy, hình thành một cơ sở người dùng lớn.
Các sản phẩm tiêu dùng phổ thông, như Trà Bách Đạo, đã cho hàng nghìn cửa hàng trên toàn quốc tiếp cận mô hình đa phương tiện lớn Step-1V, khám phá ứng dụng công nghệ mô hình lớn trong ngành trà, thực hiện kiểm tra thông minh, AIGC tiếp thị.
Dữ liệu công khai cho thấy, trung bình hàng ngày hơn một triệu ly trà Bách Đạo được giao đến tay người tiêu dùng dưới sự bảo vệ của mô hình lớn thông minh.
Và Step-1V có thể tiết kiệm 75% thời gian tự kiểm tra cho các giám sát viên của Trà Bách Đạo, cung cấp dịch vụ an toàn và chất lượng hơn cho người tiêu dùng trà.
Các nhà phát triển độc lập, như ứng dụng AI nổi tiếng "Cuốn sách dạ dày", ứng dụng chữa lành tâm lý AI "Phòng trị liệu trong rừng", sau khi thử nghiệm AB với hầu hết các mô hình trong nước, cuối cùng đều chọn API mô hình đa phương tiện của Bước nhảy.
(Thì thầm: Vì dùng nó, tỷ lệ thanh toán cao nhất)
Số liệu cụ thể cho thấy, trong nửa cuối năm 2024, lượng gọi API của mô hình đa phương tiện lớn của Bước nhảy tăng trưởng hơn 45 lần.

Nói tiếp, lần mở mã nguồn này, những gì được mở mã nguồn chính là mô hình đa phương tiện mà Bước nhảy giỏi nhất.
Chúng tôi nhận thấy, Bước nhảy đã tích lũy được uy tín và số lượng trong thị trường và giới phát triển, lần mở mã nguồn này, họ đang xem xét để tiếp cận sâu hơn về sau.
Một mặt, Step-Video-T2V sử dụng giấy phép mã nguồn mở MIT rất mở và thoải mái, có thể chỉnh sửa và ứng dụng thương mại tùy ý.
Có thể nói là "không hề giấu giếm".
Mặt khác, Bước nhảy tuyên bố "nỗ lực hạ thấp ngưỡng tiếp cận công nghiệp".
Lấy Step-Audio làm ví dụ, khác với các giải pháp mã nguồn mở trên thị trường cần phải triển khai và phát triển lại, Step-Audio là một giải pháp trao đổi thời gian thực hoàn chỉnh, chỉ cần triển khai đơn giản là có thể trao đổi thời gian thực ngay.
Chỉ cần bắt đầu, bạn đã có thể trải nghiệm từ đầu đến cuối.
Toàn bộ quá trình này, xoay quanh ngôi sao đa phương tiện của Bước nhảy, đã hình thành sơ bộ một hệ sinh thái công nghệ mã nguồn mở riêng của Bước nhảy.
Trong hệ sinh thái này, công nghệ, sáng tạo và giá trị kinh doanh giao thoa, cùng thúc đẩy sự phát triển của công nghệ đa phương tiện.
Và khi Bước nhảy tiếp tục nghiên cứu và cập nhật mô hình, khi các nhà phát triển nhanh chóng và liên tục tiếp cận, khi các đối tác trong hệ sinh thái hỗ trợ và hợp tác, "hiệu ứng tuyết lăn" của hệ sinh thái Bước nhảy đã xảy ra và đang ngày càng lớn mạnh.
Sức mạnh mã nguồn mở của Trung Quốc đang nói lên bằng hành động
Có lúc, khi nhắc đến những gương mặt hàng đầu trong lĩnh vực mã nguồn mở mô hình lớn, người ta liên tưởng đến LLaMA của Meta, đến Mamba của Albert Gu.
Đến nay, không thể chối cãi, sức mạnh mã nguồn mở của giới mô hình lớn Trung Quốc đã tỏa sáng trên toàn cầu, dùng hành động thay đổi "định kiến".
Ngày 20 tháng 1, trước thềm Tết Nguyên đán Năm Thân, là một ngày các "thần thánh" mô hình lớn trong và ngoài nước đấu trí.
Nổi bật nhất là, DeepSeek-R1 ra mắt vào ngày này, hiệu suất suy luận ngang với o1 của OpenAI, nhưng chỉ bằng 1/3 chi phí của o1.
Tác động quá lớn, một đêm khiến Nvidia bốc hơi 5.890 tỷ USD (khoảng 42.400 tỷ đồng), lập kỷ lục giảm mạnh nhất trong một ngày của thị trường chứng khoán Mỹ.
Quan trọng hơn và nổi bật hơn là, lý do R1 lên đến tầm cao khiến hàng triệu người phấn khích, ngoài hiệu suất suy luận xuất sắc, giá cả phải chăng, còn là thuộc tính mã nguồn mở.
Một hòn đá gây ra muôn trùng sóng, ngay cả OpenAI vốn bị chế giễu "không còn open" nữa, CEO Elon Musk cũng liên tục ra ngoài phát biểu công khai.
Elon Musk nói: "Về vấn đề mô hình AI mã nguồn mở, (cá nhân tôi) cho rằng chúng tôi đã đứng về phía sai lịch sử."
Ông ấy còn nói: "Thế giới thực sự cần các mô hình mã nguồn mở, chúng có thể mang lại rất nhiều giá trị cho mọi người. Tôi rất vui mừng khi thấy đã có một số mô hình mã nguồn mở xuất sắc trên thế giới."

Bây giờ, Bước nhảy cũng bắt đầu mở mã nguồn những quân bài mới của họ.
Và mở mã nguồn là mục tiêu ban đầu.
Chính thức cho biết, mục đích mở mã nguồn Step-Video-T2V và Step-Audio là thúc đẩy chia sẻ và đổi mới công nghệ mô hình lớn, thúc đẩy sự phát triển toàn diện của trí tuệ nhân tạo.
Vừa mở mã nguồn đã khoe một phen trên nhiều bảng xếp hạng đánh giá.

Bây giờ trên bàn cờ mô hình lớn mã nguồn mở, DeepSeek thì mạnh về suy luận, Bước nhảy Step thì mạnh về đa phương tiện, và còn nhiều "tuyển thủ" đang phát triển...
Sức mạnh của họ không chỉ nổi bật trong giới mã nguồn mở, nhìn vào toàn cảnh mô hình lớn, họ cũng rất đáng gờm.
——Sức mạnh mã nguồn mở của Trung Quốc, sau khi bắt đầu nổi lên, đang tiến thêm một bước nữa