【英文長推】2025 年大模型現狀報告:進展、瓶頸與未來判斷

Chainfeeds 導讀:

報告系統回顧了大模型在推理能力、架構路線、開源生態與工程化落地上的關鍵進展。

文章來源:

https://x.com/rasbt/status/2006015301717028989

文章作者:

Sebastian Raschka


觀點:

Sebastian Raschka:以下是我認為 2025 年最值得注意的一些「意外」:多個推理模型已經在重要數學競賽中達到了金牌級別表現(包括 OpenAI 的一款未命名模型、Gemini Deep Think,以及開源權重的 DeepSeekMath-V2)。我並不意外這件事終將發生,但讓我驚訝的是,它發生在 2025 年,而不是我原本預期的 2026 年。Llama 4(或者說 Llama 系列整體)幾乎在開源權重社區中失寵,而 Qwen 已在受歡迎程度上超越 Llama(以下載量和衍生模型數量衡量,數據來自 Nathan Lambert 的 ATOM 項目)。Mistral AI 在其最新旗艦模型 Mistral 3 中採用了 DeepSeek V3 架構,該模型於 2025 年 12 月發佈。除了 Qwen3 和 DeepSeek R1 / V3.2 之外,開源 SOTA 競爭者明顯增多,包括 Kimi、GLM、MiniMax 和 Yi。更便宜、更高效的混合架構已經成為頭部實驗室的核心優先級(如 Qwen3-Next、Kimi Linear、Nemotron 3),而不再只是由旁系實驗室探索。OpenAI 發佈了一個開源權重模型(gpt-oss),我在今年早些時候還為此單獨寫過一篇文章。MCP(加入 Linux Foundation)已經迅速成為 Agent 型 LLM 系統中工具與數據訪問的事實標準。我原本以為這個生態至少會碎片化到 2026 年。面向 2026 年的幾個預測:我們很可能會看到一個面向消費者、行業級別的擴散式模型,用於低成本、可靠、低延遲的推理,其中 Gemini Diffusion 可能會率先落地。開源權重社區將逐步採用具備本地工具調用能力、且更加 Agent 化的 LLM。RLVR 將從數學和編程擴展到更多領域,例如化學、生物等。傳統 RAG 將逐漸不再是文檔查詢的默認方案。開發者會更依賴更強的長上下文能力,尤其是在更強的小模型逐步成熟的背景下。大量的性能與基準進步將來自工具鏈優化與推理時擴展,而不是訓練過程或模型本體本身。模型進步看起來會更像是系統工程的勝利,而非單點架構突破。【原文為英文】

內容來源

https://chainfeeds.substack.com

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論