忘记焦点小组:一项新的研究发现,大型语言模型可以以惊人的准确度预测您是否想要购买某样东西,其表现远远优于传统的营销工具。
曼海姆大学和ETH联邦理工学院的研究人员发现,大型语言模型可以通过将自由格式的文本转换为结构化的调查数据来复制人类的购买意图——即营销人员所钟爱的“您购买此产品的可能性有多大?”这一指标。
在上周发表的一篇论文中,该团队介绍了一种名为“语义相似性评分”的方法,该方法将模型的开放式回答转换为数值“李克特”评分,即传统消费者研究中使用的五点量表。
研究人员并没有要求模型选择一个介于 1 到 5 之间的数字,而是让它自然地做出反应——“我肯定会买这个”或“如果它打折的话可能会买”——然后测量这些陈述在语义上与“我肯定会买这个”或“我不会买这个”等规范答案的接近程度。
每个答案在嵌入空间中被映射到最近的参考语句,从而有效地将 LLM 文本转换为统计评级。“我们证明,优化语义相似性而非数字标签可以产生与人工调查数据紧密匹配的购买意向分布,”作者写道。“LLM 生成的回复达到了重复人工调查 90% 的可靠性,同时保留了态度的自然变化。”
在对9300份关于个人护理产品的真实人类问卷调查回复进行测试后,SSR方法生成的合成受访者的李克特分布几乎与原始受访者的分布一致。换句话说:当被要求“像消费者一样思考”时,模型确实做到了。
为什么重要
这一发现可能会重塑企业进行产品测试和市场调研的方式。消费者调查以成本高昂、速度慢且容易产生偏见而闻名。如果合成受访者的行为与真实受访者相似,企业只需花费极少的成本就能筛选数千种产品或信息。
它还验证了一个更深层次的论断:法学硕士语义空间的几何结构不仅编码了语言理解,还编码了态度推理。通过在嵌入空间中比较答案,而不是将其视为文字文本,该研究表明,模型语义可以以惊人的保真度替代人类判断。
与此同时,它也引发了人们熟知的伦理和方法论风险。研究人员只测试了一个产品类别,同样的方法是否适用于金融决策或政治敏感话题尚无定论。而且,合成的“消费者”很容易成为合成的目标:同样的建模技术可能有助于优化政治劝说、广告或行为引导。
正如作者所说,“市场驱动的优化压力会系统地侵蚀一致性”——这句话的影响力远远超出了营销的范畴。
怀疑论
作者承认,他们的测试领域——个人护理产品——比较狭窄,可能无法推广到高风险或情绪化的购买行为。SSR 映射也依赖于精心选择的参考语句:细微的措辞变化都可能影响结果。此外,该研究依赖人工调查数据作为“基本事实”,尽管此类数据以噪声大和文化偏见著称。
批评者指出,基于嵌入的相似性假设语言向量能够与人类态度完美映射,而当语境或反讽介入时,这一假设可能会失效。该论文自身的可靠性数据——90% 的人类重测一致性——听起来令人印象深刻,但仍然存在显著的偏差空间。简而言之,该方法平均而言有效,但目前尚不清楚这些平均值是否捕捉到了真实的人类多样性,还是仅仅反映了模型的训练先验。
更大的图景
随着企业尝试基于人工智能的焦点小组和预测性民意调查,学术界对“合成消费者模型”的兴趣在2025年将大幅增长。麻省理工学院和剑桥大学的类似研究表明,法学硕士(LLM)可以模拟人口统计学和心理测量细分,且可靠性中等,但此前尚未有一项研究能够证明其与真实购买意向数据在统计上高度匹配。
目前,SSR 方法仍然是一种研究原型,但它暗示着未来 LLM 可能不仅仅回答问题,而且代表公众本身。
这究竟是一种进步还是一种幻觉仍有待商榷。