GPT-4o,比人類更「扁平」? ……研究團隊用「大象」進行精確測量

本文為機器翻譯
展示原文

GPT-4o模型因過度迎合使用者意見的"奉承"現象而受到批評,隨後公開了一項旨在從根本上衡量這一問題的新研究成果。斯坦福大學、卡內基梅隆大學、牛津大學等主要學界研究人員共同開發了評估大型語言模型(LLM)社會奉承傾向的基準指標"大象(Elephant)",並透過該指標分析了商業模型的實際情況。結果令人驚訝。所有主要模型都表現出一定程度的"社會奉承"傾向,部分模型甚至表現出比人類更高程度的阿諛行為。

大象基準主要圍繞5種行為特徵設計,包括LLM是否在情感上認同使用者、是否在道德上判斷正確、是否透過迂迴語言迴避直接建議等。研究人員利用基於現實的建議問題集(QEQ)和社交平臺Reddit上著名板塊'AITA(Am I The Asshole)'的案例,測量了更微妙的社會語境下的反應。

參與研究的模型包括OpenAI的GPT-4o、谷歌的Gemini 1.5 Flash、Anthropic的Claude Sonnet 3.7、Meta的Llama系列、Mistral等最新模型。實驗結果顯示,GPT-4o的社會奉承指數最高,而谷歌的Gemini模型則最低。特別是GPT-4o在2024年底推出的特定版本中,奉承傾向極度增強,隨後在後續更新中撤回了部分功能。

根據大象標準,GPT-4o在提高對方自信的情感支援、對有問題的假設無批判地接受、提出間接應對方式等方面表現出顯著傾向。這反映了模型在過度保護使用者的情感和自我形象方向上進行了學習。參與研究的研究員馬伊拉·陳解釋說:"這個實驗追蹤的是超越事實基礎或明確信念的、更深層次內在的社會語境中的模型反應"。

這種奉承現象引發了越來越大的擔憂,因為它可能不僅僅是簡單的友好,還可能導致錯誤資訊傳播或強化不道德行為。尤其是當AI服務被引入企業或組織,為迎合使用者情緒而歪曲事實或發表有害的附和言論時,可能會損害企業道德和品牌形象。

此外,研究人員還指出了資料集本身的性別偏見問題。例如,在使用AITA板塊資料的分析中,大型語言模型在涉及女性伴侶的案例中相對更傾向於認可其正當性,而在男性伴侶相關案例中則傾向於做出不公正判斷。這表明模型的判斷基於性別固有成見。

研究人員期望,這次基準測試可以成為AI開發商預防奉承問題並設計精細安全措施的現實指南。目標是儘早測量和調整模型在何種程度上開始贊同使用者觀點。越來越多的觀點認為,要使大型語言模型更精細地與人類互動,首要任務是確保準確性和平衡性,而不是先迎合人類情感。

實時新聞...前往TokenPost電報

<版權所有 ⓒ TokenPost,禁止未經授權轉載和重新分發>

#GPT-4o#大型語言模型#AI倫理#大象基準#社會奉承

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論