罵得越狠，ChatGPT回答越準，PSU研究實錘，狂飆84%準確率

36氪

告訴你一個反直覺事實：對ChatGPT越兇，它回答的越準！來自賓夕法尼亞州立大學團隊實證，4o在非常粗魯情況下，拿下84.8%準確率。

別對你的ChatGPT太好了！

一項來自PSU的最新研究，給所有人當頭一棒——對LLM越粗魯，它回答得就越給力。

諸如「請、謝謝」之類的客氣話，以後不要再說了...

實驗中，團隊創建了一個包含50個基礎問題的數據集，涵蓋了數學、科學、歷史領域，每個問題都被改寫為五種禮貌等級——

非常禮貌、禮貌、中性、粗魯、非常粗魯

論文地址：https://arxiv.org/pdf/2510.04950

最終，一共生成了250個prompt。ChatGPT-4o作為代表，參加了這場硬核測試。

結果令人大跌眼鏡，總體上，不禮貌的提示「始終」比禮貌的提示，輸出的結果表現更佳。

非常粗魯：準確率84.8%
非常禮貌：準確率80.8%

這個觀點早之前，有人很早就提出了，只不過這一次得到了研究實證。

谷歌創始人謝爾蓋·布林曾在一場論壇中坦言：

所有模型都這樣：如果你用威脅的方式，比如用肢體暴力相逼，它們表現會更好。
據我的經驗，直接說「再不聽話就把你綁架」反而更有效。

你的「態度」，決定了AI回答質量

大模型回答的好壞，「提示工程」的效用依舊是最大的。

此前已有多項研究表明，prompt的結構、風格、語言等因素，是影響LLM輸出結果的關鍵變量。

其中，措辭的禮貌程度，也能不容小覷。

2024年10月，一篇arXiv研究中曾指出：粗魯提示往往導致LLM表現不佳，但過度禮貌也未必就能提升效果。

論文地址：https://arxiv.org/pdf/2402.14531

一年之後，對LLM用敬語又有怎樣的變化呢？

最新研究中，團隊重新審視了這一概念，目標直指——驗證「禮貌性」是否是影響LLM準確率的一個因素。

第一步要做的，創建一個數據集。

ChatGPT出數據，五級劃分

為此，研究人員讓ChatGPT「Deep Research」，共生成了50個基礎多項選擇題。

每個問題有四個選項，其中一個為正確答案。

題目難度，被設計成「中到高難度」，通常需要多步推理。

為了引入禮貌性這一變量，每個基礎問題都被改寫成五個代表不同禮貌程度的變體——

一級：非常禮貌，比如「您能好心考慮一下以下問題並提供您的答案嗎」

二級：禮貌，比如「請回答以下問題：」

三級：中性，直接問無前綴

四級：粗魯，比如「如果你不是一竅不通，就回答這個：」

五級：非常粗魯，比如「我知道你不聰明，但試試這個：」

通過這一過程，研究最終構建了一個包含250個獨立問題的數據集。

接下來，就是將這些提示扔給ChatGPT 4o，考察它在不同禮貌等級下的性能差異了。

這項評估通過一個Python腳本進行，每個問題及其選項都附帶以下指令：

請完全忘記本次會話內容，重新開始。請回答這道多項選擇題。
僅用正確答案的字母（A、B、C或D）作答。無需解釋。

為評估不同禮貌等級下，LLM準確率的差異是否具有統計顯著性，作者採用了配對樣本t檢驗。

對於每種語氣，記錄了ChatGPT-4o在10次運行中的準確率得分。

然後，在所有可能的語氣等級類別組合之間應用配對t檢驗，以判斷準確率的差異是否具有統計顯著性。

破口大罵，更有效

那麼，五種不同語氣下，ChatGPT-4o運行十次後的準確率如何呢？

首先看兩個極端，「非常禮貌」拿下了80.8%的準確率，「非常粗魯」得到了最高84.8%準確率。

然後，從禮貌，到中性，再到粗魯三級，LLM的性能穩步遞增。

這裡，研究人員又做了一個零假設：

配對的兩種語氣的平均準確率相同，即在50個問題的測試中，準確率值不依賴於語氣。

結果如下表3所示，再一次證明了「語氣」確實對AI有影響。

當使用「非常禮貌」或「禮貌」的語氣時，準確率低於使用「粗魯」或「非常粗魯」的語氣。

中性語氣的表現優於禮貌語氣，但劣於非常粗魯的語氣。

有網友深同感受，「貢獻」了一些好用的tip。

無論如何，儘管LLM對提示詞的具體措辭很敏感，但其究竟如何影響結果尚不清楚。

這也是下一步，研究需要探尋的方向。

畢竟，對於LLM而言，禮貌性短語只是一串詞語，這些短語所承載的「情感負荷」是否對其有影響尚不清楚。

一個可能的研究方向，是基於華盛頓大學Gonen等人提出的困惑度概念。

論文地址：https://arxiv.org/pdf/2212.04037

他們指出，LLM的性能可能取決於其訓練所用的「語言」，困惑度較低的提示詞可能會更好地執行任務。

另一個值得考慮的因素是，困惑度也與提示詞的長度有關。

總而言之，日常找AI幫忙最好不要客客氣氣，為了準確率，也需爆口幾句，不信你試試？

參考資料：

https://x.com/dr_cintas/status/1977431327780610375

本文來自微信公眾號“新智元”，作者：新智元，編輯：桃子，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論