谷歌的DeepMind開發者推出了“ Promptbreeder(PB):通過加速進化實現自我參照自我完善”。這一開創性的發展有望提供一種新方法,通過利用加速進化的力量來增強大型語言模型(LLM)的能力。

這項創新的核心在於認識到大型語言模型的智能與其接收的文本線索的質量密切相關。從本質上講,線索越智能,模型的響應就越智能和準確。因此,當前的關鍵任務是制定最佳提示策略來有效地指導這些模型。
傳統的提示策略,例如思維鏈或計劃和決策方法,無可否認地提高了法學碩士的推理能力。然而,這些策略通常是手動設計的,可能達不到最佳性能。

Promptbreeder 是一種使用進化機制迭代完善提示策略的解決方案。 PB 的獨特之處在於它不僅能夠改進提示,還能夠在每一代新產品中改進其自身的提示增強功能。
以下是 Promptbreeder 進化方案的運作方式:
- 在法學碩士的指導下,Promptbreeder 生成了一組進化單元,每個進化單元包含兩個“解決方案提示”和一個“突變提示”。
- 然後採用二元錦標賽遺傳算法根據訓練集評估這些突變體的適應度,從而識別出表現更好的突變體。
- 這個循環過程不斷地返回到步驟 1,最終導致一代又一代“提示解決方案”的演變。
經過幾代的時間,Promptbreeder 使用了五種不同類別的變異算子來變異“解決方案提示”和“變異提示”。該方案的出色之處在於,這些變異的“提示解決方案”逐漸變得更加智能。 “突變提示”在這裡至關重要,它提供瞭如何突變以增強“解決方案提示”的說明。
Promptbreeder 本質上是一個在自然語言領域內運行的自我改進、自我參照的系統。至關重要的是,它不需要對神經網絡進行復雜的微調。相反,它會生成針對特定應用程序精心優化的定製提示。
初步實驗已經取得了有希望的結果。 Promptbreeder 在數學、邏輯、常識任務和語言分類(包括識別仇恨言論)方面優於所有其他當代提示方法。
展望未來,Promptbreeder 正在對其構建整個思維過程的可行性進行嚴格的測試。這涉及探索 N 提示策略,即有條件地應用提示,為參與對抗性蘇格拉底式對話的法學碩士政策預編程的開發鋪平道路。
與人類思維過程的擴展性相比,Promptbreeder 仍然存在侷限性。提示拓撲保持固定,Promptbreeder 主要適應提示內容,而不是提示算法本身。人類思維涵蓋了語言之外的多方面,包括語調、圖像和多模態系統,而這些都是 Promptbreeder 尚不具備的。
閱讀更多相關主題:
谷歌宣佈首個自我改進的人工智能模型 Promptbreeder 的進化速度比人類快數十億倍,這篇文章首先出現在元宇宙 Post上。




