Chainfeeds 导读:
报告系统回顾了大模型在推理能力、架构路线、开源生态与工程化落地上的关键进展。
文章来源:
https://x.com/rasbt/status/2006015301717028989
文章作者:
Sebastian Raschka
观点:
Sebastian Raschka:以下是我认为 2025 年最值得注意的一些「意外」:多个推理模型已经在重要数学竞赛中达到了金牌级别表现(包括 OpenAI 的一款未命名模型、Gemini Deep Think,以及开源权重的 DeepSeekMath-V2)。我并不意外这件事终将发生,但让我惊讶的是,它发生在 2025 年,而不是我原本预期的 2026 年。Llama 4(或者说 Llama 系列整体)几乎在开源权重社区中失宠,而 Qwen 已在受欢迎程度上超越 Llama(以下载量和衍生模型数量衡量,数据来自 Nathan Lambert 的 ATOM 项目)。Mistral AI 在其最新旗舰模型 Mistral 3 中采用了 DeepSeek V3 架构,该模型于 2025 年 12 月发布。除了 Qwen3 和 DeepSeek R1 / V3.2 之外,开源 SOTA 竞争者明显增多,包括 Kimi、GLM、MiniMax 和 Yi。更便宜、更高效的混合架构已经成为头部实验室的核心优先级(如 Qwen3-Next、Kimi Linear、Nemotron 3),而不再只是由旁系实验室探索。OpenAI 发布了一个开源权重模型(gpt-oss),我在今年早些时候还为此单独写过一篇文章。MCP(加入 Linux Foundation)已经迅速成为 Agent 型 LLM 系统中工具与数据访问的事实标准。我原本以为这个生态至少会碎片化到 2026 年。面向 2026 年的几个预测:我们很可能会看到一个面向消费者、行业级别的扩散式模型,用于低成本、可靠、低延迟的推理,其中 Gemini Diffusion 可能会率先落地。开源权重社区将逐步采用具备本地工具调用能力、且更加 Agent 化的 LLM。RLVR 将从数学和编程扩展到更多领域,例如化学、生物等。传统 RAG 将逐渐不再是文档查询的默认方案。开发者会更依赖更强的长上下文能力,尤其是在更强的小模型逐步成熟的背景下。大量的性能与基准进步将来自工具链优化与推理时扩展,而不是训练过程或模型本体本身。模型进步看起来会更像是系统工程的胜利,而非单点架构突破。【原文为英文】
内容来源





