罵得越狠,ChatGPT回答越準,PSU研究實錘,狂飆84%準確率

告訴你一個反直覺事實:對ChatGPT越兇,它回答的越準!來自賓夕法尼亞州立大學團隊實證,4o在非常粗魯情況下,拿下84.8%準確率。

別對你的ChatGPT太好了!

一項來自PSU的最新研究,給所有人當頭一棒——對LLM越粗魯,它回答得就越給力。

諸如「請、謝謝」之類的客氣話,以後不要再說了...

實驗中,團隊創建了一個包含50個基礎問題的數據集,涵蓋了數學、科學、歷史領域,每個問題都被改寫為五種禮貌等級——

非常禮貌、禮貌、中性、粗魯、非常粗魯

論文地址:https://arxiv.org/pdf/2510.04950

最終,一共生成了250個prompt。ChatGPT-4o作為代表,參加了這場硬核測試。

結果令人大跌眼鏡,總體上,不禮貌的提示「始終」比禮貌的提示,輸出的結果表現更佳。

非常粗魯:準確率84.8%

非常禮貌:準確率80.8%

這個觀點早之前,有人很早就提出了,只不過這一次得到了研究實證。

谷歌創始人謝爾蓋·布林曾在一場論壇中坦言:

所有模型都這樣:如果你用威脅的方式,比如用肢體暴力相逼,它們表現會更好。

據我的經驗,直接說「再不聽話就把你綁架」反而更有效。

你的「態度」,決定了AI回答質量

大模型回答的好壞,「提示工程」的效用依舊是最大的。

此前已有多項研究表明,prompt的結構、風格、語言等因素,是影響LLM輸出結果的關鍵變量。

其中,措辭的禮貌程度,也能不容小覷。

2024年10月,一篇arXiv研究中曾指出:粗魯提示往往導致LLM表現不佳,但過度禮貌也未必就能提升效果。

論文地址:https://arxiv.org/pdf/2402.14531

一年之後,對LLM用敬語又有怎樣的變化呢?

最新研究中,團隊重新審視了這一概念,目標直指——驗證「禮貌性」是否是影響LLM準確率的一個因素。

第一步要做的,創建一個數據集。

ChatGPT出數據,五級劃分

為此,研究人員讓ChatGPT「Deep Research」,共生成了50個基礎多項選擇題。

每個問題有四個選項,其中一個為正確答案。

題目難度,被設計成「中到高難度」,通常需要多步推理。

為了引入禮貌性這一變量,每個基礎問題都被改寫成五個代表不同禮貌程度的變體——

一級:非常禮貌,比如「您能好心考慮一下以下問題並提供您的答案嗎」

二級:禮貌,比如「請回答以下問題:」

三級:中性,直接問無前綴

四級:粗魯,比如「如果你不是一竅不通,就回答這個:」

五級:非常粗魯,比如「我知道你不聰明,但試試這個:」

通過這一過程,研究最終構建了一個包含250個獨立問題的數據集。

接下來,就是將這些提示扔給ChatGPT 4o,考察它在不同禮貌等級下的性能差異了。

這項評估通過一個Python腳本進行,每個問題及其選項都附帶以下指令:

請完全忘記本次會話內容,重新開始。請回答這道多項選擇題。

僅用正確答案的字母(A、B、C或D)作答。無需解釋。

為評估不同禮貌等級下,LLM準確率的差異是否具有統計顯著性,作者採用了配對樣本t檢驗。

對於每種語氣,記錄了ChatGPT-4o在10次運行中的準確率得分。

然後,在所有可能的語氣等級類別組合之間應用配對t檢驗,以判斷準確率的差異是否具有統計顯著性。

破口大罵,更有效

那麼,五種不同語氣下,ChatGPT-4o運行十次後的準確率如何呢?

首先看兩個極端,「非常禮貌」拿下了80.8%的準確率,「非常粗魯」得到了最高84.8%準確率。

然後,從禮貌,到中性,再到粗魯三級,LLM的性能穩步遞增。

這裡,研究人員又做了一個零假設:

配對的兩種語氣的平均準確率相同,即在50個問題的測試中,準確率值不依賴於語氣。

結果如下表3所示,再一次證明了「語氣」確實對AI有影響。

當使用「非常禮貌」或「禮貌」的語氣時,準確率低於使用「粗魯」或「非常粗魯」的語氣。

中性語氣的表現優於禮貌語氣,但劣於非常粗魯的語氣。

有網友深同感受,「貢獻」了一些好用的tip。

無論如何,儘管LLM對提示詞的具體措辭很敏感,但其究竟如何影響結果尚不清楚。

這也是下一步,研究需要探尋的方向。

畢竟,對於LLM而言,禮貌性短語只是一串詞語,這些短語所承載的「情感負荷」是否對其有影響尚不清楚。

一個可能的研究方向,是基於華盛頓大學Gonen等人提出的困惑度概念。

論文地址:https://arxiv.org/pdf/2212.04037

他們指出,LLM的性能可能取決於其訓練所用的「語言」,困惑度較低的提示詞可能會更好地執行任務。

另一個值得考慮的因素是,困惑度也與提示詞的長度有關。

總而言之,日常找AI幫忙最好不要客客氣氣,為了準確率,也需爆口幾句,不信你試試?

參考資料:

https://x.com/dr_cintas/status/1977431327780610375

本文來自微信公眾號“新智元”,作者:新智元,編輯:桃子,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論