新的開源 AI 模型可與 DeepSeek 相媲美,但訓練數據卻少得多

avatar
Decrypt
02-13
本文為機器翻譯
展示原文

一支由來自頂尖學術機構和科技公司的國際研究人員組成的團隊,在週三顛覆了AI推理領域,推出了一個新模型,與中國最複雜的AI系統之一DeepSeek相匹敵,甚至有時超越它。

Open Thoughts聯盟開發的OpenThinker-32B在MATH500基準測試中獲得90.6%的準確率,略高於DeepSeek的89.4%。

該模型在一般問題解決任務上也優於DeepSeek,在GPQA-Diamond基準測試中得分61.6,而DeepSeek為57.6。在LCBv2基準測試中,它達到了68.9的良好成績,在各種測試場景中表現出色。

換句話說,它在一般科學知識(GPQA-Diamond)方面優於同等規模的DeepSeek R1版本。它在MATH500上也擊敗了DeepSeek,但在AIME基準測試中輸給了DeepSeek,這兩個基準測試都試圖衡量數學能力。

它在編碼方面也略遜於DeepSeek,得分68.9分對DeepSeek的71.2分,但由於該模型是開源的,一旦有人開始改進,這些分數都可能大幅提高。

這一成就的亮點在於其高效性:OpenThinker只需114,000個訓練樣本就能達到這些結果,而DeepSeek使用了800,000個。

OpenThoughts-114k資料集附帶了每個問題的詳細元資料:真實解決方案、程式碼問題的測試用例、必要的起始程式碼以及特定領域的資訊。

它的定製Curator框架驗證了程式碼解決方案是否符合測試用例,而一個AI裁判處理了數學驗證。

該團隊報告說,他們使用了四個配備八個H100 GPU的節點,完成時間約為90小時。在義大利的Leonardo超級計算機上訓練的另一個包含137,000個未經驗證樣本的資料集,在短短30小時內消耗了11,520個A100小時。

"驗證有助於在擴大培訓提示的多樣性和規模的同時保持質量,"該團隊在文件中指出。研究表明,即使是未經驗證的版本也表現良好,儘管它們無法達到經過驗證的模型的峰值結果。

該模型建立在阿里巴巴的Qwen2.5-32B-Instruct LLM之上,支援16,000個令牌的適度上下文視窗,足以處理複雜的數學證明和冗長的編碼問題,但遠低於當前的標準。

這一發布恰逢AI推理能力競爭日益激烈,這似乎以思維的速度在發生。OpenAI在2月12日宣佈,GPT-5之後的所有模型都將具有推理能力。一天後,Elon Musk誇耀xAI的Grok-3增強了問題解決能力,承諾它將是迄今為止最好的推理模型,就在幾個小時前,Nous Research釋出了另一個開源推理模型DeepHermes,基於Meta的Llama 3.1。

在DeepSeek展示出與OpenAI的o1相當的效能,但成本大幅降低之後,該領域獲得了動力。DeepSeek R1可免費下載、使用和修改,訓練技術也已公開。

然而,與決定完全開源的Open Thoughts不同,DeepSeek開發團隊保留了其訓練資料的私密性。

這一關鍵差異意味著開發人員可能更容易理解OpenThinker並從頭開始複製其結果,而不是DeepSeek,因為他們可以訪問拼圖的所有部分。

對於更廣泛的AI社群來說,這一發布再次證明了在沒有大規模專有資料集的情況下建立有競爭力的模型是可行的。此外,它可能是西方開發人員更值得信賴的競爭對手,他們仍然對使用中國模型(無論是否開源)存有疑慮。

OpenThinker可在HuggingFace下載。一個更小、功能較弱的7B引數模型也可用於低端裝置。

Open Thoughts團隊彙集了來自斯坦福、伯克利和UCLA等美國大學以及德國Juelich超級計算中心的研究人員。美國豐田研究所和歐盟AI領域的其他參與者也對此提供了支援。

Josh QuittnerSebastian Sinclair編輯

TRUU
0.36%
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
1
評論
Followin logo