DeepSeek V3-0324 在開源中超越非推理 AI 模型

avatar
AI News
03-25
本文為機器翻譯
展示原文

DeepSeek V3-0324已成為人工智能分析智能指數中得分最高的非推理模型,這是開源人工智能的里程碑。

新款機型在基準測試中提高了 7 個點,超越了谷歌Gemini 2.0 Pro 、Anthropic 的Claude 3.7 Sonnet和 Meta 的Llama 3.3 70B等專有同類產品。

雖然 V3-0324 落後於推理模型,包括 DeepSeek 自己的 R1 以及 OpenAI 和阿里巴巴的產品,但這一成就凸顯了開源解決方案在對延遲敏感的應用程序中日益增長的可行性,因為即時響應至關重要。

DeepSeek V3-0324 代表開源 AI 的新時代

非推理模型(無需深思熟慮的“思考”階段即可立即生成答案)對於聊天機器人、客戶服務自動化和實時翻譯等實時用例至關重要。DeepSeek 的最新版本現在為這些應用程序設定了標準,甚至超越了領先的專有工具。

DeepSeek V3-0324 在人工智能分析智能指數中的基準測試結果表明非推理開源人工智能模型取得了里程碑式的成就。

“這是開放權重模型首次成為領先的非推理模型,這對開源來說是一個里程碑,”Artificial Analysis 表示。該模型的性能更接近專有推理模型,儘管後者在需要複雜問題解決的任務方面仍然更勝一籌。

DeepSeek V3-0324 保留了 2024 年 12 月前代產品的大部分規格,包括:

  • 128k 上下文窗口(通過 DeepSeek 的 API 上限為 64k)
  • 總參數量達 6710 億,需要超過 700GB 的 GPU 內存才能達到 FP8 精度
  • 370 億個有效參數
  • 純文本功能(不支持多模式)
  • MIT 許可證

“這仍然不是你可以在家運行的東西!”Artificial Analysis 打趣道,強調了其企業級基礎設施的要求。

開源人工智能正在帶來熱度

雖然DeepSeek R1等專有推理模型在更廣泛的情報指數中佔據主導地位,但差距正在縮小。

三個月前,DeepSeek V3 幾乎與 Anthropic 和 Google 的專有模型相匹敵,但未能超越它們。如今,更新後的 V3-0324 不僅領先於開源替代方案,而且超越了所有專有的非推理競爭對手。

“這個版本可以說比 R1 更令人印象深刻,”Artificial Analysis 表示。

DeepSeek 的進展標誌著人工智能領域的轉變,開源框架與封閉系統的競爭日益激烈。對於開發者和企業來說,MIT 授權的 V3-0324 提供了一種功能強大、適應性強的工具——儘管其計算成本可能會限制其可訪問性。

人工智能研究公司 AI 表示:“DeepSeek 目前正在推動非推理開放權重模型的發展。”

隨著 R2 的即將推出,社區正在期待 AI 性能的又一次潛在飛躍。

(攝影: Paul Hanaoka

另請參閱: Hugging Face 呼籲在 AI 行動計劃中關注開源

想要從行業領袖那裡瞭解更多有關人工智能和大數據的信息嗎?請關注在阿姆斯特丹、加利福尼亞和倫敦舉辦的人工智能和大數據博覽會。這項綜合性活動與其他領先活動(包括智能自動化會議BlockX數字化轉型周網絡安全與雲博覽會)在同一地點舉辦。

在此探索由 TechForge 主辦的其他即將舉行的企業技術活動和網絡研討會。

DeepSeek V3-0324 在開源非推理 AI 模型中名列前茅的文章最先出現在AI News上。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論