里约热内卢发展出一款击败DeepSeek的AI模型——但它是基于他人的研究成果。

本文为机器翻译

展示原文

里约热内卢的 IplanRIO 于 6 月 13 日发布了Rio 3.5。该市的 IT 机构称其为前沿模型：3970 亿个参数，采用宽松的开源许可，由全球南方一座城市的市政府建构而成。

Rio 3.5 的发布时机堪称完美：巴西队正在进行世界杯揭幕战，社群媒体上早已炸开了锅。关于它的评论迅速从巴西传播到世界各地。

但就在它引起关注的同时，关于究竟是谁创造了这个模型的争论也随之而来。

最初的模型卡将 Rio 3.5 描述为阿里巴巴开源模型 Qwen 3.5 397B 的后续训练版本，并在此基础上添加了一个名为 SwiReasoning 的全新推理层。据报道，其开发成本为 50 万雷亚尔（R$500,000，Rio 未对此予以证实），约合 10 万美元——比同等现成的 AI 系统便宜约 30 倍。

该架构采用混合专家模型（Mixture-of-Experts），这意味著在任何给定的词元上，3970亿个参数中只有大约170亿个会被触发。这使得推理成本比标题所显示的要低。该模型还支援视觉和文本，可处理十几种语言，并以完全开放的MIT许可证发布。

SwiReasoning 是其技术核心。它是一个无需训练的推理框架，可在两种模式之间动态切换。当模型对下一个词有把握时（机率分布熵较低），它会使用自然语言进行推理。当不确定时，它会切换到潜在推理，在不发出词元的情况下思考隐藏的内在状态。 IplanRIO 表示，Rio 3.5 专门针对此功能进行了训练，并且在基准测试中得到了体现。

自我报告的数据令人瞩目。 Terminal-Bench 2.1（用于衡量自主终端命令执行能力，以任务通过百分比计分）中，Rio 3.5 的通过率为 70.8%，略高于 Qwen 3.7 Plus 的 70.3% 和功能强大的 DeepSeek v4 Pro 的 67.9%。

在 IMOAnswerBench（数学奥林匹克基准测试，以正确率衡量）上，Rio 3.5 的正确率达到了 89.5%。在 HLE（人类最后的考试，一项几乎无法解决的多领域专家测试，同样以百分比衡量）上，Rio 3.5 的正确率为 36.5%，高于 Qwen 3.7 Plus 的 34.7%。

市政府在最重要的品质基准测试中击败了最重要的旗舰车型：这则新闻迅速传播开来，尤其是在里约热内卢市长在推特上发布了相关消息之后。

「过去一年，由里约热内卢市政府资助、在里约热内卢训练的开源人工智慧模型，已经超越了所有其他模型，」爱德华多·卡瓦列雷写道。 “如今，全世界都在谈论这个在里约热内卢训练的开源人工智慧模型。”

「在里约接受训练」这个说法并不完全准确。

总部位于上海的开源人工智慧联盟Nex-AGI在Rio 3.5发布几天后发布了一则讯息。开头写道：“Rio 3.5模型本周引爆网络。但剧情反转在于：它本质上就是我们的开源模型Nex N2 Pro，只不过换了个包装而已。”

他们分析了权重。计算结果非常精确：Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5。随后，他们编写了验证脚本并提交了完整的GitHub 报告。

证据分两部分提供。

首先是行为分析。 Nex 从已部署的模型中移除了硬编码的「你是 Rio」系统提示，并向其发送了 120 个身份验证问题。 Nex 报告称，移除该提示后，模型有 79.2% 的时间自称为“Nex，来自 Nex-AGI”，而自称为“Rio”的机率为 0%。 Nex 表示，该模型还逐字逐句地复述了公司的具体背景信息，提到了「上海创新研究院」和「大型模型生态系统联盟」。这些都是 Nex 本身的训练数据，却出现在了其他公司的模型中。

其次，从数学角度来看。在真正的权重合并中，新模型中的每个参数都位于两个来源模型之间的一条直线上。 Nex 对所有 60 层进行了共线性测量，结果为 0.993。两个不相关的模型在同一参数空间中得分接近零并非偶然。在每一层都达到 0.993 并非巧合。混合比例维持在 α ≈ 0.571，稳定到Decimal三位。

基本上，它近 60% 是 Nex，其余部分是 Qwen 的基础型号。

Nex 写道：“在 Rio 中，所有 60 层网络的每个组件，其权重张量在数千个标准差范围内，都是 Nex 和 Qwen 的相同 0.6/0.4 混合比例。这绝非无辜之举。”

数据也揭示了一个更平静的故事。 Nex N2 Pro 在 Rio 3.5 发布前几天推出，其 Terminal-Bench 2.1 得分为 75.3%，高于 Rio 的 70.8%。在 GDPval（一种采用 Elo 等级评分的经济预测基准）上，Nex 的得分为 1585，而 Rio 为 1533。如果 Rio 的效能相当于 Nex 的 60%，那么它在 Nex 自身的基准测试中得分低于 Nex 也在情理之中。事实也的确如此。

IplanRIO 更新了 Hugging Face 模型卡——基准表被删除，归因也发生了变化。

更新后的自述文件指出：「该模型由 nex-agi/Nex-N2-Pro 和 Qwen/Qwen3.5-397B-A17B 合并而成，并在此基础上，基于一个更强大的模型进行了策略内提炼。我们发现之前的版本，我们对此有误，上传的是合并后的基础版本，而非最终提炼后的模型。

IplanRIO方面尚未发布其他公开声明。目前已将功劳归于Nex。

「上传错误」的解释是关键所在。 IplanRIO 表示，他们计划发布的是合并后的基础模型的精简版本，而不是原始合并版本本身。策略内精简意味著更强大的教师模式产生输出，学生模型在使用这些输出进行训练的同时，也会产生自己的输出。这比原始合并更耗费资源，但仍然比从头开始训练便宜。如果这一步骤属实，那么它至少代表了在合并基础上进行的一些原创性工作。

根据 IplanRIO 的数据，实际发货的是合并后的基础部分，上面没有其他内容。

社区观察家对此看法不一。科技评论家拉斐尔·昆塔尼利亚（Rafael Quintanilha）给出了较为宽容的解读：由于Nex N2 Pro本身基于Qwen架构，团队可能只是沿用了底层架构的署名，并未进行更深入的探讨。他也指出，这款产品是在世界杯比赛期间走红的，「未必已经『准备好面向大众销售』」。

开发者兼人工智慧 YouTuber Lucas Montano 指出，「合并两个 ~4000 亿级模型，然后应用策略蒸馏并非易事」——同时他也承认存在技术错误和沟通失误。

人工智慧研究员迭戈·安布罗西奥则没那么客气。在最初的发布会上，Rio 3.5 被描述为「自主后训练和专有微调」的成果——这种说法暗示它是原创研究，而不是合并。

模型合并完全合法。 Nex N2 Pro 采用 Apache 2.0 授权—只要注明出处，您就可以使用、修改和重新散布它。 Qwen 3.5 也采用开源授权。没人会因此对簿公堂。

问题在于，开发者将成果包装成独立开发的作品，却没有列出所有来源模型。开源社群对此早已屡见不鲜。今年早些时候，Cursor 的 Composer 2 被发现基于 Moonshot 的 Kimi K2.5 构建，却未作任何披露。舆论反弹迅速而严重——没有律师介入，只有截图曝光。

基于现有开源模型进行开发是正常的。正如Decrypt所报导的，堆叠和合并开源权重实际上已经形成了一种独特的次文化。规范并非“不要在他人成果的基础上进行开发”，而是：说明你使用了哪些资源。

这件事之所以比一般的归属错误更引人注目，是因为其背后有机构撑腰。一个匿名开发者以自己的名义发布一个拼凑而成的人工智慧系统是一回事，而一个市政府在世界杯期间利用该系统宣称其拥有公共部门人工智慧主权则是另一回事。「这简直是浪费资源，」一位巴西评论员写道。

Nex公司并没有将此事上升为战争。「里约热内卢市政府利用我们的成果实现了最先进的性能，我们深感荣幸，」该公司在X上写道。 “但在开源世界里，署名至关重要。”

IplanRIO 正在努力上传修正后的精简模型，并保留完整的归属资讯。模型上传后，将再次运行相同的检查——届时社区将能够了解精简后的模型是否真的有所改进，或者它是否仍然主要基于 Nex，只是系统提示符有所不同。