裡約熱內盧發展出一款擊敗DeepSeek的AI模型——但它是基於他人的研究成果。

本文為機器翻譯

展示原文

裡約熱內盧的 IplanRIO 於 6 月 13 日發布了Rio 3.5。該市的 IT 機構稱其為前沿模型：3970 億個參數，採用寬鬆的開源許可，由全球南方一座城市的市政府建構而成。

Rio 3.5 的發佈時機堪稱完美：巴西隊正在進行世界盃揭幕戰，社群媒體上早已炸開了鍋。關於它的評論迅速從巴西傳播到世界各地。

但就在它引起關注的同時，關於究竟是誰創造了這個模型的爭論也隨之而來。

最初的模型卡將 Rio 3.5 描述為阿里巴巴開源模型 Qwen 3.5 397B 的後續訓練版本，並在此基礎上添加了一個名為 SwiReasoning 的全新推理層。據報道，其開發成本為 50 萬雷亞爾（R$500,000，Rio 未對此予以證實），約合 10 萬美元——比同等現成的 AI 系統便宜約 30 倍。

該架構採用混合專家模型（Mixture-of-Experts），這意味著在任何給定的詞元上，3970億個參數中只有大約170億個會被觸發。這使得推理成本比標題所顯示的要低。該模型還支援視覺和文本，可處理十幾種語言，並以完全開放的MIT許可證發布。

SwiReasoning 是其技術核心。它是一個無需訓練的推理框架，可在兩種模式之間動態切換。當模型對下一個詞有把握時（機率分佈熵較低），它會使用自然語言進行推理。當不確定時，它會切換到潛在推理，在不發出詞元的情況下思考隱藏的內在狀態。 IplanRIO 表示，Rio 3.5 專門針對此功能進行了訓練，並且在基準測試中得到了體現。

自我報告的數據令人矚目。 Terminal-Bench 2.1（用於衡量自主終端命令執行能力，以任務通過百分比計分）中，Rio 3.5 的通過率為 70.8%，略高於 Qwen 3.7 Plus 的 70.3% 和功能強大的 DeepSeek v4 Pro 的 67.9%。

在 IMOAnswerBench（數學奧林匹克基準測試，以正確率衡量）上，Rio 3.5 的正確率達到了 89.5%。在 HLE（人類最後的考試，一項幾乎無法解決的多領域專家測試，同樣以百分比衡量）上，Rio 3.5 的正確率為 36.5%，高於 Qwen 3.7 Plus 的 34.7%。

市政府在最重要的品質基準測試中擊敗了最重要的旗艦車型：這則新聞迅速傳播開來，尤其是在裡約熱內盧市長在推特上發布了相關消息之後。

「過去一年，由里約熱內盧市政府資助、在裡約熱內盧訓練的開源人工智慧模型，已經超越了所有其他模型，」愛德華多·卡瓦列雷寫道。 “如今，全世界都在談論這個在裡約熱內盧訓練的開源人工智慧模型。”

「在裡約接受訓練」這個說法並不完全準確。

總部位於上海的開源人工智慧聯盟Nex-AGI在Rio 3.5發布幾天後發布了一則訊息。開頭寫道：“Rio 3.5模型本週引爆網絡。但劇情反轉在於：它本質上就是我們的開源模型Nex N2 Pro，只不過換了個包裝而已。”

他們分析了權重。計算結果非常精確：Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5。隨後，他們編寫了驗證腳本並提交了完整的GitHub 報告。

證據分兩部分提供。

首先是行為分析。 Nex 從已部署的模型中移除了硬編碼的「你是 Rio」系統提示，並向其發送了 120 個身份驗證問題。 Nex 報告稱，移除該提示後，模型有 79.2% 的時間自稱為“Nex，來自 Nex-AGI”，而自稱為“Rio”的機率為 0%。 Nex 表示，該模型還逐字逐句地複述了公司的具體背景信息，提到了「上海創新研究院」和「大型模型生態系統聯盟」。這些都是 Nex 本身的訓練數據，卻出現在了其他公司的模型中。

其次，從數學角度來看。在真正的權重合併中，新模型中的每個參數都位於兩個來源模型之間的一條直線上。 Nex 對所有 60 層進行了共線性測量，結果為 0.993。兩個不相關的模型在同一參數空間中得分接近零並非偶然。在每一層都達到 0.993 並非巧合。混合比例維持在 α ≈ 0.571，穩定到Decimal三位。

基本上，它近 60% 是 Nex，其餘部分是 Qwen 的基礎型號。

Nex 寫道：“在 Rio 中，所有 60 層網絡的每個組件，其權重張量在數千個標準差範圍內，都是 Nex 和 Qwen 的相同 0.6/0.4 混合比例。這絕非無辜之舉。”

數據也揭示了一個更平靜的故事。 Nex N2 Pro 在 Rio 3.5 發布前幾天推出，其 Terminal-Bench 2.1 得分為 75.3%，高於 Rio 的 70.8%。在 GDPval（一種採用 Elo 等級評分的經濟預測基準）上，Nex 的得分為 1585，而 Rio 為 1533。如果 Rio 的效能相當於 Nex 的 60%，那麼它在 Nex 自身的基準測試中得分低於 Nex 也在情理之中。事實也的確如此。

IplanRIO 更新了 Hugging Face 模型卡——基準表被刪除，歸因也發生了變化。

更新後的自述文件指出：「該模型由 nex-agi/Nex-N2-Pro 和 Qwen/Qwen3.5-397B-A17B 合併而成，並在此基礎上，基於一個更強大的模型進行了策略內提煉。我們發現之前的版本，我們對此有誤，上傳的是合併後的基礎版本，而非最終提煉後的模型。

IplanRIO方面尚未發布其他公開聲明。目前已將功勞歸於Nex。

「上傳錯誤」的解釋是關鍵所在。 IplanRIO 表示，他們計劃發布的是合併後的基礎模型的精簡版本，而不是原始合併版本本身。策略內精簡意味著更強大的教師模式產生輸出，學生模型在使用這些輸出進行訓練的同時，也會產生自己的輸出。這比原始合併更耗費資源，但仍然比從頭開始訓練便宜。如果這一步驟屬實，那麼它至少代表了在合併基礎上進行的一些原創性工作。

根據 IplanRIO 的數據，實際發貨的是合併後的基礎部分，上面沒有其他內容。

社區觀察家對此看法不一。科技評論家拉斐爾·昆塔尼利亞（Rafael Quintanilha）給出了較為寬容的解讀：由於Nex N2 Pro本身基於Qwen架構，團隊可能只是沿用了底層架構的署名，並未進行更深入的探討。他也指出，這款產品是在世界盃比賽期間走紅的，「未必已經『準備好面向大眾銷售』」。

開發者兼人工智慧 YouTuber Lucas Montano 指出，「合併兩個 ~4000 億級模型，然後應用策略蒸餾並非易事」——同時他也承認存在技術錯誤和溝通失誤。

人工智慧研究員迭戈·安布羅西奧則沒那麼客氣。在最初的發布會上，Rio 3.5 被描述為「自主後訓練和專有微調」的成果——這種說法暗示它是原創研究，而不是合併。

模型合併完全合法。 Nex N2 Pro 採用 Apache 2.0 授權—只要註明出處，您就可以使用、修改和重新散佈它。 Qwen 3.5 也採用開源授權。沒人會因此對簿公堂。

問題在於，開發者將成果包裝成獨立開發的作品，卻沒有列出所有來源模型。開源社群對此早已屢見不鮮。今年早些時候，Cursor 的 Composer 2 被發現基於 Moonshot 的 Kimi K2.5 構建，卻未作任何披露。輿論反彈迅速而嚴重——沒有律師介入，只有截圖曝光。

基於現有開源模型進行開發是正常的。正如Decrypt所報導的，堆疊和合併開源權重實際上已經形成了一種獨特的次文化。規範並非“不要在他人成果的基礎上進行開發”，而是：說明你使用了哪些資源。

這件事之所以比一般的歸屬錯誤更引人注目，是因為其背後有機構撐腰。一個匿名開發者以自己的名義發布一個拼湊而成的人工智慧系統是一回事，而一個市政府在世界盃期間利用該系統宣稱其擁有公共部門人工智慧主權則是另一回事。「這簡直是浪費資源，」一位巴西評論員寫道。

Nex公司並沒有將此事上升為戰爭。「裡約熱內盧市政府利用我們的成果實現了最先進的性能，我們深感榮幸，」該公司在X上寫道。 “但在開源世界裡，署名至關重要。”

IplanRIO 正在努力上傳修正後的精簡模型，並保留完整的歸屬資訊。模型上傳後，將再次運行相同的檢查——屆時社區將能夠了解精簡後的模型是否真的有所改進，或者它是否仍然主要基於 Nex，只是系統提示符有所不同。