被拒並不等於失敗。
文章作者、來源:機器之心
真是令人意外。
PPO(Proximal Policy Optimization)這個後來在 RLHF 和大模型訓練中被廣泛使用的經典算法,當年曾被 NIPS 2017 拒之門外。
這件事最近由 PPO 作者 John Schulman 本人提起。他只用一句話概括了這段往事:PPO,曾經被 NIPS 2017 拒了。

這篇最早在 2017 年 7 月發佈的論文,當時看起來只是一個更簡單、更工程友好的策略優化算法。它的目標,是在保留 TRPO 穩定性的同時,降低實現複雜度,讓強化學習訓練更好調、更實用。

但幾年之後,真正把 PPO 推向更大舞臺的,反而不是 Atari、機器人控制這些傳統強化學習任務,而是大語言模型。
從 RLHF 到今天的 RLVR,PPO 成了大模型後訓練裡繞不開的基礎算法之一。按照 Schulman 的說法,PPO 在 LLM 時代迎來第二波熱潮,原因甚至超出了原論文當年的預期。

這看起來並不像是 Schulman 在抱怨當年被拒稿,而更像是一種事後感慨:一項技術的真正影響力,往往會以發明者最初沒有預料到的方式釋放出來。
看到這裡,很多人自然會好奇:PPO 當年為什麼會被拒?
Schulman 後來給出的解釋是,這篇論文在當時被認為創新性有限,相比已有基線方法的提升也不夠明顯。

有網友評論「這背後其實折射出學術評價與真實產業需求之間的一種錯位。學術界往往更看重新穎性,以及在小規模、受控實驗環境下相對基線的提升;而真實世界更在意的是方法能不能擴展到更大規模,能不能在複雜系統裡保持穩定,能不能真正跑得起來。」

Schulman 對此也顯得很平和。他表示,那已經是很久以前的事了,希望這些年過去之後,學術界已經逐漸理解並吸收了這種「簡單但可規模化」的審美。
真正讓他意外的是,PPO 這篇論文以及其中的目標函數,竟然能持續影響這麼久。一個算法改動到底只是很快被遺忘、被替代的小修小補,還是會長期留在系統裡、變成難以超越的基礎組件,往往很難在一開始就判斷出來。
而 PPO 的故事,恰恰說明了這一點。

其實何止 PPO。AI 史上不少後來被證明影響深遠的工作,都曾在最初投稿時被頂會拒之門外。
LSTM:1996 年被 NIPS 拒稿,當時被認為過於複雜、缺乏生物學合理性。但後來成為語音識別、機器翻譯等序列建模任務的核心技術。
SIFT:曾被 ICCV 1997、CVPR 1998 拒稿,原因是工程步驟繁瑣、不夠優雅。但它後來統治前深度學習時代的計算機視覺十多年。
Dropout:2012 年被 NIPS 拒稿,被認為像工程 hack、理論解釋不夠嚴謹。但它後來成為深度神經網絡最重要的正則化方法之一,並獲得 NeurIPS 時間檢驗獎。
有時候,時間才是最嚴格、也最公平的評審。






