經典之作PPO算法：曾被NeurIPS拒了

被拒並不等於失敗。

文章作者、來源：機器之心

真是令人意外。

PPO（Proximal Policy Optimization）這個後來在 RLHF 和大模型訓練中被廣泛使用的經典算法，當年曾被 NIPS 2017 拒之門外。

這件事最近由 PPO 作者 John Schulman 本人提起。他只用一句話概括了這段往事：PPO，曾經被 NIPS 2017 拒了。

這篇最早在 2017 年 7 月發佈的論文，當時看起來只是一個更簡單、更工程友好的策略優化算法。它的目標，是在保留 TRPO 穩定性的同時，降低實現複雜度，讓強化學習訓練更好調、更實用。

但幾年之後，真正把 PPO 推向更大舞臺的，反而不是 Atari、機器人控制這些傳統強化學習任務，而是大語言模型。

從 RLHF 到今天的 RLVR，PPO 成了大模型後訓練裡繞不開的基礎算法之一。按照 Schulman 的說法，PPO 在 LLM 時代迎來第二波熱潮，原因甚至超出了原論文當年的預期。

這看起來並不像是 Schulman 在抱怨當年被拒稿，而更像是一種事後感慨：一項技術的真正影響力，往往會以發明者最初沒有預料到的方式釋放出來。

看到這裡，很多人自然會好奇：PPO 當年為什麼會被拒？

Schulman 後來給出的解釋是，這篇論文在當時被認為創新性有限，相比已有基線方法的提升也不夠明顯。

有網友評論「這背後其實折射出學術評價與真實產業需求之間的一種錯位。學術界往往更看重新穎性，以及在小規模、受控實驗環境下相對基線的提升；而真實世界更在意的是方法能不能擴展到更大規模，能不能在複雜系統裡保持穩定，能不能真正跑得起來。」

Schulman 對此也顯得很平和。他表示，那已經是很久以前的事了，希望這些年過去之後，學術界已經逐漸理解並吸收了這種「簡單但可規模化」的審美。

真正讓他意外的是，PPO 這篇論文以及其中的目標函數，竟然能持續影響這麼久。一個算法改動到底只是很快被遺忘、被替代的小修小補，還是會長期留在系統裡、變成難以超越的基礎組件，往往很難在一開始就判斷出來。

而 PPO 的故事，恰恰說明了這一點。

其實何止 PPO。AI 史上不少後來被證明影響深遠的工作，都曾在最初投稿時被頂會拒之門外。

LSTM：1996 年被 NIPS 拒稿，當時被認為過於複雜、缺乏生物學合理性。但後來成為語音識別、機器翻譯等序列建模任務的核心技術。

SIFT：曾被 ICCV 1997、CVPR 1998 拒稿，原因是工程步驟繁瑣、不夠優雅。但它後來統治前深度學習時代的計算機視覺十多年。

Dropout：2012 年被 NIPS 拒稿，被認為像工程 hack、理論解釋不夠嚴謹。但它後來成為深度神經網絡最重要的正則化方法之一，並獲得 NeurIPS 時間檢驗獎。

有時候，時間才是最嚴格、也最公平的評審。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論