OpenAI 推出 PaperBench 基準測試,用於評估 AI 複製研究能力

Foresight News 消息,OpenAI 推出 PaperBench 基準測試,用於評估 AI 代理複製研究的能力。AI 需複製 ICML 2024 的 20 篇頂級論文,涉及理解論文、編寫代碼及執行實驗。測試通過與原作者共同開發的細化評分標準進行,涵蓋 8316 個具體要求,由 LLM 評判。結果顯示,Claude 3.5 Sonnet (New) 結合開源框架表現最佳,平均複製得分 21.0%,但仍未超越人類基線。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
Followin logo