lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）的想法

lidang 立党（全网劝人卖房、劝人学CS、劝人买SP500和NASDAQ100第一人）

03-21

下一代LLM的benchmark，不應該在swe-bench lite/verified/pro/ultra上跑了，應該每月封閉單獨偷偷隨機在github上找到5000個issues，用同樣的harness，讓所有模型跑，讓一個裁判agent寫test case來確定是否成功，因為issue都是隨機找的，也不用關心resolved數量和百分比，直接看相對排名就可以了。這樣也不用擔心用swe-bench去fine tuning甚至作弊，也不用擔心A廠商能復現、B廠商無法復現、C廠商cherry pick最佳結果等等不可控因素，大家只要看本月最新的官方leaderboard大排名就可以了。比以前同時跑倆model，讓網友手動投票左邊還是右邊好用，要強得多。注意，這個排名的縱向是沒有參考價值的，也許3月份第一名A模型解決了60%的問題，4月份第一名B模型只解決了40%的問題，因為3月和4月的issues是完全不同的，也就沒有任何縱向對比的必要性。只要看本月相對排名的名次就可以了。這才是真正的賽博鬥蛐蛐。

來自推特

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論