内部人士称，DeepSeek V4 的编码能力将超越 Claude 和 ChatGPT，并将在几周内发布。

01-10

本文为机器翻译

展示原文

据报道，DeepSeek计划在2月中旬左右发布其V4模型，如果内部测试结果可信，硅谷的人工智能巨头们应该感到紧张。

据The Information报道，这家位于杭州的人工智能初创公司可能计划在 2 月 17 日左右（农历新年）发布一款专门针对编码任务设计的模型。直接了解该项目的人士称，V4 在内部基准测试中表现优于 Anthropic 的 Claude 和 OpenAI 的 GPT 系列，尤其是在处理超长代码提示时。

当然，目前尚未公开任何基准测试数据或关于该模型的信息，因此无法直接验证这些说法。DeepSeek 也未证实这些传闻。

不过，开发者社区并没有等待官方消息。Reddit 上的 r/DeepSeek 和 r/LocalLLaMA 版块已经热闹起来，用户们纷纷囤积API 点数，X 平台上的爱好者们也迅速分享了他们的预测：V4 版本可能会巩固 DeepSeek 作为一家不屈不挠、不愿遵循硅谷十亿美元规则的“黑马”的地位。

这并非DeepSeek首次颠覆市场。该公司于2025年1月发布R1推理模型时，曾引发全球市场1万亿美元的抛售潮。

原因何在？DeepSeek 的 R1 模型在数学和推理基准测试中与 OpenAI 的 o1 模型不相上下，而据报道其开发成本仅为 600 万美元——比竞争对手的成本低了约 68 倍。其 V3 模型后来在 MATH-500 基准测试中达到了 90.2% 的准确率，远超 Claude 的 78.3%，而最近的更新“ V3.2 Speciale ”进一步提升了其性能。

V4 的编码重点将是一项战略性转变。R1 侧重于纯粹的推理——逻辑、数学、形式化证明——而 V4 则是一种混合模型（推理和非推理任务），目标市场是企业级开发者市场，在这个市场中，高精度的代码生成能够直接转化为收入。

为了确立主导地位，V4 需要超越 Claude Opus 4.5，后者目前保持着 SWE-bench 验证准确率 80.9% 的记录。但如果 DeepSeek 以往的发布经验可以作为参考，那么即使中国人工智能实验室面临诸多限制，实现这一目标也并非不可能。

假设传言属实，这个小型实验室是如何取得如此成就的？

该公司的秘密武器可能就藏在其1月1日发表的研究论文中：流形约束超连接（Manifold-Constrained Hyper-Connections，简称mHC）。这篇由创始人梁文峰参与撰写的论文，旨在解决大型语言模型扩展过程中的一个根本性问题——如何在不导致模型不稳定或崩溃的情况下扩展其容量。

传统人工智能架构强制所有信息通过单一狭窄的路径传递。mHC 将这条路径拓宽为多条信息流，使信息能够自由交换而不会导致训练崩溃。

Counterpoint Research 的人工智能首席分析师魏孙在接受Business Insider采访时称 mHC 是一项“惊人的突破”。她表示，这项技术表明，即使由于美国出口限制而难以获得先进芯片，DeepSeek 也能“绕过计算瓶颈，实现智能的飞跃”。

Omdia首席分析师苏连杰指出，DeepSeek愿意公开其方法，这表明“人们对中国人工智能产业重拾信心”。该公司的开源模式使其深受开发者喜爱，开发者们认为它体现了OpenAI在转向封闭模型和进行数十亿美元融资之前的初衷。

并非所有人都信服。一些开发者在Reddit上抱怨DeepSeek的推理模型在简单任务上浪费计算资源，而批评者则认为该公司的基准测试无法反映现实世界的复杂性。一篇题为“DeepSeek太烂了——我再也不假装它好”的Medium文章在2025年4月迅速走红，文章指责这些模型生成“充满bug的样板代码”和“不切实际的库”。

DeepSeek也背负着一些包袱。隐私问题一直困扰着这家公司，一些政府甚至封禁了DeepSeek的原生应用。该公司与中国的联系以及其模型中存在的审查问题，都为技术层面的争论增添了地缘政治的摩擦。

尽管如此，发展势头依然不容忽视。Deepseek 在亚洲已被广泛采用，如果 V4 版本能够兑现其编码方面的承诺，那么西方企业也可能会跟进采用。

还有时机问题。据路透社报道，DeepSeek 最初计划在 2025 年 5 月发布 R2 型号，但由于创始人梁志强对其性能不满意，因此延长了发布时间。如今，V4 据称计划于 2 月发布，R2 可能紧随其后在 8 月发布，该公司目前的推进速度表明其既急于求成，又信心十足。或许两者兼而有之。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢