内部人士称,DeepSeek V4 的编码能力将超越 Claude 和 ChatGPT,并将在几周内发布。

avatar
Decrypt
01-10
本文为机器翻译
展示原文

据报道,DeepSeek计划在2月中旬左右发布其V4模型,如果内部测试结果可信,硅谷的人工智能巨头们应该感到紧张。

The Information报道,这家位于杭州的人工智能初创公司可能计划在 2 月 17 日左右(农历新年)发布一款专门针对编码任务设计的模型。直接了解该项目的人士称,V4 在内部基准测试中表现优于 Anthropic 的 Claude 和 OpenAI 的 GPT 系列,尤其是在处理超长代码提示时。

当然,目前尚未公开任何基准测试数据或关于该模型的信息,因此无法直接验证这些说法。DeepSeek 也未证实这些传闻。

不过,开发者社区并没有等待官方消息。Reddit 上的 r/DeepSeek 和 r/LocalLLaMA 版块已经热闹起来,用户们纷纷囤积API 点数,X 平台上的爱好者们也迅速分享了他们的预测:V4 版本可能会巩固 DeepSeek 作为一家不屈不挠、不愿遵循硅谷十亿美元规则的“黑马”的地位。

这并非DeepSeek首次颠覆市场。该公司于2025年1月发布R1推理模型时,曾引发全球市场1万亿美元的抛售潮

原因何在?DeepSeek 的 R1 模型在数学和推理基准测试中与 OpenAI 的 o1 模型不相上下,而据报道其开发成本仅为 600 万美元——比竞争对手的成本低了约 68 倍。其 V3 模型后来在 MATH-500 基准测试中达到了 90.2% 的准确率,远超 Claude 的 78.3%,而最近的更新“ V3.2 Speciale ”进一步提升了其性能。

V4 的编码重点将是一项战略性转变。R1 侧重于纯粹的推理——逻辑、数学、形式化证明——而 V4 则是一种混合模型(推理和非推理任务),目标市场是企业级开发者市场,在这个市场中,高精度的代码生成能够直接转化为收入。

为了确立主导地位,V4 需要超越 Claude Opus 4.5,后者目前保持着 SWE-bench 验证准确率 80.9% 的记录。但如果 DeepSeek 以往的发布经验可以作为参考,那么即使中国人工智能实验室面临诸多限制,实现这一目标也并非不可能。

假设传言属实,这个小型实验室是如何取得如此成就的?

该公司的秘密武器可能就藏在其1月1日发表的研究论文中:流形约束超连接(Manifold-Constrained Hyper-Connections,简称mHC)。这篇由创始人梁文峰参与撰写的论文,旨在解决大型语言模型扩展过程中的一个根本性问题——如何在不导致模型不稳定或崩溃的情况下扩展其容量。

传统人工智能架构强制所有信息通过单一狭窄的路径传递。mHC 将这条路径拓宽为多条信息流,使信息能够自由交换而不会导致训练崩溃。

Counterpoint Research 的人工智能首席分析师魏孙在接受Business Insider采访时称 mHC 是一项“惊人的突破”。她表示,这项技术表明,即使由于美国出口限制而难以获得先进芯片,DeepSeek 也能“绕过计算瓶颈,实现智能的飞跃”。

Omdia首席分析师苏连杰指出,DeepSeek愿意公开其方法,这表明“人们对中国人工智能产业重拾信心”。该公司的开源模式使其深受开发者喜爱,开发者们认为它体现了OpenAI在转向封闭模型和进行数十亿美元融资之前的初衷。

并非所有人都信服。一些开发者在Reddit上抱怨DeepSeek的推理模型在简单任务上浪费计算资源,而批评者则认为该公司的基准测试无法反映现实世界的复杂性。一篇题为“DeepSeek太烂了——我再也不假装它好”的Medium文章在2025年4月迅速走红,文章指责这些模型生成“充满bug的样板代码”和“不切实际的库”。

DeepSeek也背负着一些包袱。隐私问题一直困扰着这家公司,一些政府甚至封禁了DeepSeek的原生应用。该公司与中国的联系以及其模型中存在的审查问题,都为技术层面的争论增添了地缘政治的摩擦

尽管如此,发展势头依然不容忽视。Deepseek 在亚洲已被广泛采用,如果 V4 版本能够兑现其编码方面的承诺,那么西方企业也可能会跟进采用。

还有时机问题。 路透社报道,DeepSeek 最初计划在 2025 年 5 月发布 R2 型号,但由于创始人梁志强对其性能不满意,因此延长了发布时间。如今,V4 据称计划于 2 月发布,R2 可能紧随其后在 8 月发布,该公司目前的推进速度表明其既急于求成,又信心十足。或许两者兼而有之。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
56
收藏
16
评论