人工智能模型或許能夠比你更好地預測你會買什麼

本文為機器翻譯
展示原文

忘記焦點小組:一項新的研究發現,大型語言模型可以以驚人的準確度預測您是否想要購買某樣東西,其表現遠遠優於傳統的營銷工具。

曼海姆大學和ETH聯邦理工學院的研究人員發現,大型語言模型可以通過將自由格式的文本轉換為結構化的調查數據來複制人類的購買意圖——即營銷人員所鍾愛的“您購買此產品的可能性有多大?”這一指標。

在上週發表的一篇論文中,該團隊介紹了一種名為“語義相似性評分”的方法,該方法將模型的開放式回答轉換為數字“李克特”評分,這是傳統消費者研究中使用的五點量表。

研究人員並沒有要求模型選擇一個介於 1 到 5 之間的數字,而是讓它自然地做出反應——“我肯定會買這個”或“如果它打折的話可能會買”——然後測量這些陳述在語義上與“我肯定會買這個”或“我不會買這個”等規範答案的接近程度。

每個答案在嵌入空間中被映射到最近的參考語句,從而有效地將 LLM 文本轉換為統計評級。“我們證明,優化語義相似性而非數字標籤可以產生與人工調查數據緊密匹配的購買意向分佈,”作者寫道。“LLM 生成的回覆達到了重複人工調查 90% 的可靠性,同時保留了態度的自然變化。”

在對9300份關於個人護理產品的真實人類問卷調查回覆進行測試後,SSR方法生成的合成受訪者的李克特分佈幾乎與原始受訪者的分佈一致。換句話說:當被要求“像消費者一樣思考”時,模型確實做到了。

這一發現可能會重塑企業進行產品測試和市場調研的方式。消費者調查以成本高昂、速度慢且容易產生偏見而聞名。如果合成受訪者的行為與真實受訪者相似,企業只需花費極少的成本就能篩選數千種產品或信息。

它還驗證了一個更深層次的論斷:法學碩士語義空間的幾何結構不僅編碼了語言理解,還編碼了態度推理。通過在嵌入空間中比較答案,而不是將其視為文字文本,該研究表明,模型語義可以以驚人的保真度替代人類判斷。

與此同時,它也引發了人們熟知的倫理和方法論風險。研究人員只測試了一個產品類別,同樣的方法是否適用於金融決策或政治敏感話題尚無定論。而且,合成的“消費者”很容易成為合成的目標:同樣的建模技術可能有助於優化政治勸說、廣告或行為引導。

正如作者所說,“市場驅動的優化壓力會系統地侵蝕一致性”——這句話的影響力遠遠超出了營銷的範疇。

作者承認,他們的測試領域——個人護理產品——比較狹窄,可能無法推廣到高風險或情緒化的購買行為。SSR 映射也依賴於精心選擇的參考語句:細微的措辭變化都可能影響結果。此外,該研究依賴人工調查數據作為“基本事實”,儘管此類數據以噪聲大和文化偏見著稱。

批評者指出,基於嵌入的相似性假設語言向量能夠與人類態度完美映射,而當語境或反諷介入時,這一假設可能會失效。該論文自身的可靠性數據——90% 的人類重測一致性——聽起來令人印象深刻,但仍然存在顯著的偏差空間。簡而言之,該方法平均而言有效,但目前尚不清楚這些平均值是否捕捉到了真實的人類多樣性,還是僅僅反映了模型的訓練先驗。

隨著企業嘗試基於人工智能的焦點小組和預測性民意調查,學術界對“合成消費者模型”的興趣在2025年將大幅增長。麻省理工學院和劍橋大學的類似研究表明,法學碩士(LLM)可以模擬人口統計學和心理測量細分,且可靠性中等,但此前尚未有一項研究能夠證明其與真實購買意向數據在統計上高度匹配。

目前,SSR 方法仍然是一種研究原型,但它暗示著未來 LLM 可能不僅僅回答問題,而且代表公眾本身。

這究竟是一種進步還是一種幻覺仍有待商榷。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
54
收藏
14
評論