Rio de Janeiro đã xây dựng một mô hình trí tuệ nhân tạo đánh bại DeepSeek—nhưng lại dựa trên công trình nghiên cứu của người khác.

Bài viết này được dịch máy
Xem bản gốc

Vào ngày 13 tháng 6, IplanRIO của Rio de Janeiro đã phát hành Rio 3.5. Cơ quan công nghệ thông tin của thành phố gọi đây là một mô hình tiên tiến: 397 tỷ tham số, với giấy phép mã nguồn mở dễ sử dụng, được xây dựng bởi chính quyền thành phố của một quốc gia ở khu vực Nam bán cầu.

Thời điểm ra mắt Rio 3.5 thật hoàn hảo: Brazil đang thi đấu trận mở màn World Cup, và mạng xã hội đã sôi động hẳn lên. Những bình luận về trò chơi nhanh chóng lan rộng từ Brazil ra khắp thế giới.

Nhưng cũng nhanh chóng như khi thu hút được sự chú ý, đã nảy sinh tranh cãi về việc ai mới chính xác là người tạo ra mô hình này.

Mô hình ban đầu được mô tả là Rio 3.5 như một phiên bản nâng cấp của Qwen 3.5 397B, mô hình mã nguồn mở của Alibaba, với một lớp suy luận mới có tên SwiReasoning được thêm vào. Chi phí phát triển được báo cáo là 500.000 R$ (Rio không xác nhận điều này), tương đương gần 100.000 USD — rẻ hơn khoảng 30 lần so với các hệ thống AI tương đương có sẵn trên thị trường.

Kiến trúc của mô hình là "Hỗn hợp các chuyên gia" (Mixture-of-Experts), nghĩa là chỉ khoảng 17 tỷ trong số 397 tỷ tham số được kích hoạt trên bất kỳ Token nào. Điều này giúp giảm chi phí suy luận so với kích thước được thể hiện trong tiêu đề. Mô hình cũng hỗ trợ xử lý hình ảnh và văn bản, hỗ trợ hơn chục ngôn ngữ và được phát hành theo giấy phép MIT hoàn toàn mở.

SwiReasoning là cốt lõi kỹ thuật. Đó là một khung suy luận không cần huấn luyện, tự động chuyển đổi giữa hai chế độ. Khi mô hình tự tin về từ tiếp theo—độ nhiễu thấp trong phân phối xác suất—nó suy luận bằng ngôn ngữ thông thường. Khi không chắc chắn, nó chuyển sang suy luận tiềm ẩn, suy nghĩ trong các trạng thái nội tại ẩn mà không phát ra token. IplanRIO cho biết Rio 3.5 được huấn luyện đặc biệt để khai thác điều này, và những lợi ích đạt được thể hiện rõ trong các con số chuẩn.

Các con số tự báo cáo rất ấn tượng. Terminal-Bench 2.1—đo lường khả năng thực thi lệnh thiết bị đầu cuối tự động, được chấm điểm theo tỷ lệ phần trăm các tác vụ hoàn thành—đạt 70,8% đối với Rio 3.5, vượt trội hơn Qwen 3.7 Plus ở mức 70,3% và DeepSeek v4 Pro mạnh mẽ ở mức 67,9%.

Trên IMOAnswerBench, một bài kiểm tra toán học chuẩn được chấm điểm theo tỷ lệ phần trăm chính xác, Rio 3.5 đạt 89,5%. Trên HLE—Humanity's Last Exam, một bài kiểm tra chuyên sâu đa lĩnh vực gần như không thể giải được, được chấm điểm theo tỷ lệ phần trăm—Rio 3.5 đạt 36,5%, vượt trội so với Qwen 3.7 Plus với 34,7%.

Một chính quyền thành phố vượt trội hơn những mô hình hàng đầu quan trọng nhất về các tiêu chuẩn chất lượng có ý nghĩa nhất: Đó là tiêu đề lan truyền rộng rãi, đặc biệt là sau khi Thị trưởng Rio de Janeiro đăng tải về điều đó trên Twitter.

“Một mô hình trí tuệ nhân tạo mã nguồn mở được đào tạo tại Rio và được chính quyền thành phố Rio tài trợ công khai trong năm qua vừa vượt qua tất cả các mô hình khác,” Eduardo Cavaliere viết. “Ngày nay, cả thế giới đang bàn tán về một mô hình trí tuệ nhân tạo mã nguồn mở được đào tạo tại Rio.”

Câu nói “được đào tạo tại Rio” hóa ra không hoàn toàn chính xác.

Nex-AGI, một liên minh trí tuệ nhân tạo mã nguồn mở có trụ sở tại Thượng Hải, đã đăng bài viết vào X ngày sau khi ra mắt. Bài viết mở đầu: "Mẫu Rio 3.5 đã gây sốt trên mạng tuần này. Điều bất ngờ là gì? Về cơ bản, đó chính là mẫu mã nguồn mở của chúng tôi, Nex N2 Pro, được khoác lên mình một chiếc mũ khác."

Họ đã phân tích trọng số. Phép tính chính xác : Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5. Một Script xác minh và một báo cáo đầy đủ trên GitHub đã được thực hiện sau đó.

Bằng chứng gồm hai phần.

Đầu tiên là về hành vi. Nex đã loại bỏ lời nhắc hệ thống được mã hóa cứng "Bạn là Rio" khỏi mô hình đã triển khai và gửi cho nó 120 câu hỏi xác định danh tính. Không có lớp mặt nạ, Nex báo cáo rằng mô hình tự gọi mình là "Nex, từ Nex-AGI" trong 79,2% trường hợp. Nó tự gọi mình là "Rio" trong chính xác 0% trường hợp. Nex cho biết mô hình cũng thuật lại câu chuyện nền tảng cụ thể của công ty một cách chính xác, đề cập đến "Viện Đổi mới Thượng Hải" và "một liên minh hệ sinh thái mô hình lớn". Đó là dữ liệu huấn luyện của chính Nex, xuất hiện trong mô hình của người khác.

Thứ hai, về mặt toán học. Trong một phép hợp nhất trọng số thực sự, mọi tham số trong mô hình mới đều nằm trên một đường thẳng giữa hai mô hình nguồn. Nex đã đo lường sự tương quan này trên tất cả 60 lớp. Kết quả thu được là 0,993. Hai mô hình không liên quan trong cùng không gian tham số có thể đạt điểm gần bằng 0 một cách ngẫu nhiên. Việc đạt được 0,993 trên mọi lớp không phải là trùng hợp ngẫu nhiên. Tỷ lệ pha trộn được giữ ở mức α ≈ 0,571, ổn định đến ba chữ Decimal .

Về cơ bản, nó gần như 60% là Nex, phần còn lại là mô hình Qwen cơ bản.

"Mỗi tensor trọng số trong Rio, với độ lệch chuẩn hàng nghìn, đều là sự kết hợp 0,6/0,4 giữa Nex và Qwen — trên tất cả 60 lớp và mọi thành phần của mạng," Nex viết. "Không có lời giải thích nào vô hại cả."

Các con số cũng kể một câu chuyện thầm lặng hơn. Nex N2 Pro, được phát hành chỉ vài ngày trước Rio 3.5, đạt 75,3% trên Terminal-Bench 2.1—cao hơn mức 70,8% của Rio. Trên GDPval, một tiêu chuẩn dự báo kinh tế được chấm điểm theo kiểu Elo, Nex đạt 1.585 điểm so với 1.533 điểm của Rio. Nếu Rio chiếm 60% Nex, thì người ta sẽ kỳ vọng nó đạt điểm thấp hơn Nex trên chính các tiêu chuẩn của Nex. Và đúng là như vậy.

IplanRIO đã cập nhật thẻ mô hình Hugging Face — bảng so sánh đã được gỡ xuống và thông tin về nguồn gốc cũng thay đổi.

"Mô hình được xây dựng thông qua việc hợp nhất nex-agi/Nex-N2-Pro và Qwen/Qwen3.5-397B-A17B, trước đó được tinh chế theo chính sách từ một mô hình mạnh hơn," bản Readme được cập nhật cho biết. "Chúng tôi đã phát hiện một lỗi tải lên trong phiên bản trước, trong đó phiên bản hợp nhất cơ bản đã được tải lên thay vì mô hình tinh chế cuối cùng. Chúng tôi rất tiếc vì sự nhầm lẫn này và thành thật xin lỗi."

IplanRIO hiện chưa đưa ra bất kỳ tuyên bố công khai nào khác. Nex hiện đã được ghi nhận công lao.

Lời giải thích về "tải lên không chính xác" là luận điểm chính. IplanRIO cho biết bản phát hành dự định là phiên bản tinh chế của cơ sở dữ liệu đã được hợp nhất—chứ không phải là bản hợp nhất thô. Quá trình tinh chế theo chính sách có nghĩa là mô hình giáo viên mạnh hơn tạo ra đầu ra, và mô hình học sinh được huấn luyện dựa trên những đầu ra đó đồng thời cũng tự tạo ra đầu ra của riêng mình. Quá trình này tốn kém hơn so với việc hợp nhất thô, nhưng vẫn rẻ hơn so với việc huấn luyện từ đầu. Nếu bước đó là có thật, thì nó sẽ thể hiện ít nhất một số công việc gốc được thực hiện trên nền tảng hợp nhất.

Theo IplanRIO, những gì thực sự được xuất xưởng là nền tảng hợp nhất mà không có bất cứ thứ gì được thêm vào.

Các nhà quan sát cộng đồng có ý kiến ​​trái chiều về điều đó. Nhà bình luận công nghệ Rafael Quintanilha đưa ra nhận định thiện chí : Vì bản thân Nex N2 Pro được xây dựng trên nền tảng Qwen, nên nhóm phát triển có thể đã ghi nhận công lao của kiến ​​trúc nền tảng đó và để nguyên như vậy. Ông cũng chỉ ra rằng mô hình này trở nên phổ biến trong một trận đấu World Cup, "không nhất thiết 'đã sẵn sàng cho công chúng sử dụng'".

Nhà phát triển và YouTuber về trí tuệ nhân tạo Lucas Montano nhận xét rằng "việc hợp nhất hai mô hình thuộc lớp ~400B và sau đó áp dụng phương pháp chưng cất chính sách không phải là chuyện đơn giản"—đồng thời thừa nhận cả lỗi kỹ thuật và sự thiếu sót trong giao tiếp.

Nhà nghiên cứu AI Diego Ambrosio thì không mấy hào phóng. Trong thông cáo báo chí ban đầu, ông mô tả Rio 3.5 là kết quả của "quá trình huấn luyện tự động sau đó và tinh chỉnh độc quyền" - cách diễn đạt này ngụ ý đó là nghiên cứu gốc, chứ không phải là sự hợp nhất.

Việc hợp nhất mô hình hoàn toàn hợp pháp. Nex N2 Pro sử dụng giấy phép Apache 2.0 — bạn có thể sử dụng, chỉnh sửa và phân phối lại nó, miễn là bạn ghi rõ nguồn gốc. Qwen 3.5 cũng được cấp phép mở. Sẽ không ai kiện tụng ở đây cả.

Vấn đề nằm ở chỗ trình bày kết quả đầu ra như một sản phẩm được phát triển độc lập mà không nêu tên tất cả các mô hình nguồn. Cộng đồng mã nguồn mở đã từng chứng kiến ​​điều này trước đây. Đầu năm nay, Composer 2 của Cursor bị phát hiện được xây dựng trên Kimi K2.5 của Moonshot mà không hề tiết lộ. Phản ứng dữ dội diễn ra nhanh chóng và ảnh hưởng đến uy tín – không cần luật sư, chỉ cần ảnh chụp màn hình.

Việc xây dựng dựa trên các mô hình mở hiện có là điều bình thường. Như Decrypt đã đề cập , việc xếp chồng và hợp nhất các trọng số mở thực tế là một tiểu văn hóa riêng. Quy tắc không phải là "đừng xây dựng dựa trên công trình của người khác". Quy tắc là: Hãy nói rõ bạn đã sử dụng gì.

Điều khiến vụ việc này gây chú ý hơn cả một lỗi sai sót thông thường là lớp vỏ bọc thể chế. Một nhà phát triển Bút danh tung ra một sản phẩm lai ghép dưới tên thật của mình là một chuyện. Nhưng việc một chính quyền thành phố sử dụng nó để khẳng định chủ quyền về trí tuệ nhân tạo trong khu vực công – ngay trong thời điểm diễn ra World Cup – lại là chuyện khác. “Đó là sự lãng phí nguồn lực”, một nhà bình luận người Brazil viết .

Nex không biến nó thành một cuộc chiến. "Chúng tôi rất vinh dự khi Thành phố Rio đã sử dụng công trình của chúng tôi để đạt được hiệu suất SOTA," công ty viết trên X. "Nhưng trong thế giới mã nguồn mở, việc ghi nhận công lao rất quan trọng."

IplanRIO đang nỗ lực tải lên mô hình đã được hiệu chỉnh, tinh chỉnh với đầy đủ thông tin nguồn gốc. Khi mô hình đó được tải lên, các bước kiểm tra tương tự sẽ được thực hiện lại — và cộng đồng sẽ biết liệu quá trình tinh chỉnh có thực sự thay đổi điều gì hay không, hay nó vẫn chủ yếu là Nex với lời nhắc hệ thống khác.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận