Xeophon

Xeophon

9,629个推特粉丝

关注

动态

关于法学硕士（LLM）候选人名单、开放模型和技能问题的思考。链接在回复中。

是 GPT-5.2（-codex）速度变快了，还是只是速度变慢了？

最近我一直在思考以下几个问题： - 为什么有些脚手架表现更好？是提示信息？还是可用工具（尤其是搜索工具）？亦或是循环本身？ - 模型特定的提示信息对第一个问题有何影响？这对前沿领域的影响有多大？

更新：他们已经确认了问题，并使用官方镜像重新运行了 SWE-bench 测试。得分降至 76.2 分（仍然非常非常出色）。干得好！他们还提供了一个 vLLM 内核补丁，并建议不要使用量化算法。 github.com/IQuestLab/IQuest-Co...…

我猜对了！！ IQuest-Coder 的配置有误，它包含了完整的 Git 历史记录，包括未来的提交。该模型发现了这个漏洞，并且频繁使用。因此，它的 SWE-bench 分数应该被舍弃。 twitter.com/xeophon/status/200...

-- 到底啦 --