DeepSeek V3-0324 在开源中超越非推理 AI 模型

avatar
AI News
03-25
本文为机器翻译
展示原文

DeepSeek V3-0324已成为人工智能分析智能指数中得分最高的非推理模型,这是开源人工智能的里程碑。

新款机型在基准测试中提高了 7 个点,超越了谷歌Gemini 2.0 Pro 、Anthropic 的Claude 3.7 Sonnet和 Meta 的Llama 3.3 70B等专有同类产品。

虽然 V3-0324 落后于推理模型,包括 DeepSeek 自己的 R1 以及 OpenAI 和阿里巴巴的产品,但这一成就凸显了开源解决方案在对延迟敏感的应用程序中日益增长的可行性,因为即时响应至关重要。

DeepSeek V3-0324 代表开源 AI 的新时代

非推理模型(无需深思熟虑的“思考”阶段即可立即生成答案)对于聊天机器人、客户服务自动化和实时翻译等实时用例至关重要。DeepSeek 的最新版本现在为这些应用程序设定了标准,甚至超越了领先的专有工具。

DeepSeek V3-0324 在人工智能分析智能指数中的基准测试结果表明非推理开源人工智能模型取得了里程碑式的成就。

“这是开放权重模型首次成为领先的非推理模型,这对开源来说是一个里程碑,”Artificial Analysis 表示。该模型的性能更接近专有推理模型,尽管后者在需要复杂问题解决的任务方面仍然更胜一筹。

DeepSeek V3-0324 保留了 2024 年 12 月前代产品的大部分规格,包括:

  • 128k 上下文窗口(通过 DeepSeek 的 API 上限为 64k)
  • 总参数量达 6710 亿,需要超过 700GB 的 GPU 内存才能达到 FP8 精度
  • 370 亿个有效参数
  • 纯文本功能(不支持多模式)
  • MIT 许可证

“这仍然不是你可以在家运行的东西!”Artificial Analysis 打趣道,强调了其企业级基础设施的要求。

开源人工智能正在带来热度

虽然DeepSeek R1等专有推理模型在更广泛的情报指数中占据主导地位,但差距正在缩小。

三个月前,DeepSeek V3 几乎与 Anthropic 和 Google 的专有模型相匹敌,但未能超越它们。如今,更新后的 V3-0324 不仅领先于开源替代方案,而且超越了所有专有的非推理竞争对手。

“这个版本可以说比 R1 更令人印象深刻,”Artificial Analysis 表示。

DeepSeek 的进展标志着人工智能领域的转变,开源框架与封闭系统的竞争日益激烈。对于开发者和企业来说,MIT 授权的 V3-0324 提供了一种功能强大、适应性强的工具——尽管其计算成本可能会限制其可访问性。

人工智能研究公司 AI 表示:“DeepSeek 目前正在推动非推理开放权重模型的发展。”

随着 R2 的即将推出,社区正在期待 AI 性能的又一次潜在飞跃。

(摄影: Paul Hanaoka

另请参阅: Hugging Face 呼吁在 AI 行动计划中关注开源

想要从行业领袖那里了解更多有关人工智能和大数据的信息吗?请关注在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能和大数据博览会。这项综合性活动与其他领先活动(包括智能自动化会议BlockX数字化转型周网络安全与云博览会)在同一地点举办。

在此探索由 TechForge 主办的其他即将举行的企业技术活动和网络研讨会。

DeepSeek V3-0324 在开源非推理 AI 模型中名列前茅的文章最先出现在AI News上。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论