是時候以去中心化的方式擴充套件測試時間計算了。強化學習不僅僅是大語言模型的後訓練正規化,還是一個與苦澀教訓相一致的正規化。
本文為機器翻譯
展示原文

Noam Brown
@polynoamial
04-17
Our new @OpenAI o3 and o4-mini models further confirm that scaling inference improves intelligence, and that scaling RL shifts up the whole compute vs. intelligence curve. There is still a lot of room to scale both of these further.

來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享






