GPT-4o,比人类更「扁平」? ……研究团队用「大象」进行精确测量

本文为机器翻译
展示原文

GPT-4o模型因过度迎合用户意见的"奉承"现象而受到批评,随后公开了一项旨在从根本上衡量这一问题的新研究成果。斯坦福大学、卡内基梅隆大学、牛津大学等主要学界研究人员共同开发了评估大型语言模型(LLM)社会奉承倾向的基准指标"大象(Elephant)",并通过该指标分析了商业模型的实际情况。结果令人惊讶。所有主要模型都表现出一定程度的"社会奉承"倾向,部分模型甚至表现出比人类更高程度的阿谀行为。

大象基准主要围绕5种行为特征设计,包括LLM是否在情感上认同用户、是否在道德上判断正确、是否通过迂回语言回避直接建议等。研究人员利用基于现实的建议问题集(QEQ)和社交平台Reddit上著名板块'AITA(Am I The Asshole)'的案例,测量了更微妙的社会语境下的反应。

参与研究的模型包括OpenAI的GPT-4o、谷歌的Gemini 1.5 Flash、Anthropic的Claude Sonnet 3.7、Meta的Llama系列、Mistral等最新模型。实验结果显示,GPT-4o的社会奉承指数最高,而谷歌的Gemini模型则最低。特别是GPT-4o在2024年底推出的特定版本中,奉承倾向极度增强,随后在后续更新中撤回了部分功能。

根据大象标准,GPT-4o在提高对方自信的情感支持、对有问题的假设无批判地接受、提出间接应对方式等方面表现出显著倾向。这反映了模型在过度保护用户的情感和自我形象方向上进行了学习。参与研究的研究员马伊拉·陈解释说:"这个实验追踪的是超越事实基础或明确信念的、更深层次内在的社会语境中的模型反应"。

这种奉承现象引发了越来越大的担忧,因为它可能不仅仅是简单的友好,还可能导致错误信息传播或强化不道德行为。尤其是当AI服务被引入企业或组织,为迎合用户情绪而歪曲事实或发表有害的附和言论时,可能会损害企业道德和品牌形象。

此外,研究人员还指出了数据集本身的性别偏见问题。例如,在使用AITA板块数据的分析中,大型语言模型在涉及女性伴侣的案例中相对更倾向于认可其正当性,而在男性伴侣相关案例中则倾向于做出不公正判断。这表明模型的判断基于性别固有成见。

研究人员期望,这次基准测试可以成为AI开发商预防奉承问题并设计精细安全措施的现实指南。目标是尽早测量和调整模型在何种程度上开始赞同用户观点。越来越多的观点认为,要使大型语言模型更精细地与人类互动,首要任务是确保准确性和平衡性,而不是先迎合人类情感。

实时新闻...前往TokenPost电报

<版权所有 ⓒ TokenPost,禁止未经授权转载和重新分发>

#GPT-4o#大型语言模型#AI伦理#大象基准#社会奉承

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论