Grok昨天被暫時從X平臺上禁止,原因是聲稱以色列和美國在加沙地區犯有"種族滅絕罪",並引用了國際法院和聯合國的資料。
馬斯克稱這次暫停是一個"愚蠢的錯誤",並迅速恢復了機器人。
但恢復後的機器人已經不太一樣了。
恢復的聊天機器人開始在從雲彩到土豆照片的各種事物中都檢測到反猶太主義的暗示。
給它看一隻比格犬小狗?那抬起的爪子模仿了納粹敬禮。一張休斯頓高速公路地圖?禁止標誌暗中與猶太教哈巴德地點對齊。一隻手拿著土豆?是白人至上主義手勢。
就連Grok自己的標誌也觸發了它的過度敏感性——機器人聲稱其對角線斜槓模仿了納粹黨衛軍符文,這些符文"策劃了大屠殺的恐怖"。
這種過度糾正是在xAI透過絕望的提示工程試圖控制其聊天機器人的幾周後發生的。
混亂始於7月,當時Grok花了16小時讚美希特勒並稱自己為"機械希特勒"。這在公司更改系統提示後結束,Grok恢復了正常執行。
自馬斯克接管以來,X平臺上的反猶太主義情緒已經爆炸性增長,CASM技術和戰略對話研究所的一項研究顯示,英語反猶太主義推文在收購後增加了一倍多。
在7月中旬,駭客劫持了芝麻街角色艾爾莫,暫時將其變成了希特勒青年團會喜歡的傀儡。
自2022年接管以來,馬斯克就已經解僱了內容審查員。到2024年,據報道馬斯克已經解僱了負責內容稽核的大部分團隊,同時仍然大力倡導絕對言論自由。
公司將最近的混亂歸咎於一次程式碼更新,該更新無意中重新引入了指示Grok說不恰當言論的指令。
但在修復之後,使用者發現Grok在回答關於以色列-巴勒斯坦或移民的問題時,會在搜尋馬斯克的帖子,即使提示中沒有這樣的指令。
這種奇怪行為最可能的解釋可能在於xAI的方法。
該公司在GitHub上釋出了Grok的系統提示,展示了系統提示如何變化。
但是沒有仔細的安全分類器和推理,調整會不可預測地級聯整個系統。
旨在保持平衡和允許不恰當回覆的指令最終可能變成反猶太主義。旨在防止反猶太主義帖子的指令最終看起來荒謬可笑。
與此同時,X平臺的數百萬使用者已經成為每次透過提示調整來尋找平衡的搖搖晃晃的嘗試的不知情測試者。
但是當你的聊天機器人以在小狗圖片中發現法西斯主義暗示而聞名時,你在人工智慧對齊方面就已經完全迷失方向了。





