下一代LLM的benchmark,不應該在swe-bench lite/verified/pro/ultra上跑了,
應該每月封閉單獨偷偷隨機在github上找到5000個issues,用同樣的harness,讓所有模型跑,讓一個裁判agent寫test case來確定是否成功,
因為issue都是隨機找的,也不用關心resolved數量和百分比,直接看相對排名就可以了。
這樣也不用擔心用swe-bench去fine tuning甚至作弊,也不用擔心A廠商能復現、B廠商無法復現、C廠商cherry pick最佳結果等等不可控因素,
大家只要看本月最新的官方leaderboard大排名就可以了。
比以前同時跑倆model,讓網友手動投票左邊還是右邊好用,要強得多。
注意,這個排名的縱向是沒有參考價值的,也許3月份第一名A模型解決了60%的問題,4月份第一名B模型只解決了40%的問題,因為3月和4月的issues是完全不同的,也就沒有任何縱向對比的必要性。
只要看本月相對排名的名次就可以了。
這才是真正的賽博鬥蛐蛐。
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




