포커스 그룹은 잊어버리세요. 새로운 연구에 따르면 대규모 언어 모델은 놀라울 정도로 정확하게 소비자가 무언가를 사고 싶어하는지 예측할 수 있으며, 기존 마케팅 도구보다 훨씬 더 나은 성과를 보입니다.
만하임 대학교와 이더리움(ETH) 연방 공과대학의 연구진은 대규모 언어 모델이 인간의 구매 의도(마케터들이 선호하는 "이 제품을 구매할 가능성은 얼마나 됩니까?"라는 지표)를 재현할 수 있다는 사실을 발견했습니다. 이는 자유형 텍스트를 구조화된 설문 조사 데이터로 변환하는 방식입니다.
연구팀은 지난주에 발표한 논문에서 " 의미적 유사성 평가"라는 방법을 소개했는데, 이는 모델의 개방형 응답을 전통적인 소비자 조사에서 사용되는 5점 척도인 숫자형 "리커트" 평가로 변환하는 것입니다.
연구진은 모델에 1에서 5 사이의 숫자를 선택하도록 요청하는 대신, 자연스럽게 대답하게 했습니다. "이거 꼭 살 거예요" 또는 "세일 중이라면 살 수도 있을 것 같아요"와 같이요. 그리고 이러한 대답이 "이거 꼭 살 거예요" 또는 "이거 사지 않을 거예요"와 같은 정식 답변과 의미적으로 얼마나 가까운지 측정했습니다.
각 답변은 임베딩 공간에서 가장 가까운 참조 진술문에 매핑되어 LLM 텍스트를 통계적 평가로 효과적으로 변환했습니다. 저자들은 "숫자 레이블이 아닌 의미적 유사성을 최적화하면 인간 설문 데이터와 매우 유사한 구매 의도 분포를 얻을 수 있음을 보여줍니다."라고 기술했습니다. "LLM으로 생성된 응답은 태도의 자연스러운 변화를 유지하면서 반복된 인간 설문 조사의 90% 신뢰도를 달성했습니다."
개인 관리 제품에 대한 9,300건의 실제 인간 설문 응답을 대상으로 한 테스트에서, SSR 방법은 리커트 분포가 원본과 거의 일치하는 합성 응답자를 생성했습니다. 다시 말해, "소비자처럼 생각하라"는 요청을 받았을 때, 모델은 실제로 그렇게 했습니다.
왜 중요한가
이 발견은 기업의 제품 테스트 및 시장 조사 방식을 바꿀 수 있습니다. 소비자 설문 조사는 비용이 많이 들고, 시간이 오래 걸리며, 편향에 취약하기로 악명 높습니다. 합성 응답자(실제 응답자처럼 행동한다면)를 활용하면 기업은 훨씬 적은 비용으로 수천 개의 제품이나 메시지를 선별할 수 있습니다.
또한 이 연구는 LLM 의미 공간의 기하학이 언어 이해뿐만 아니라 태도 추론 까지 포함한다는 더 심층적인 주장을 입증합니다. 이 연구는 답변을 문자 그대로의 텍스트로 취급하는 대신 임베딩 공간에서 비교함으로써, 모델 의미론이 놀라울 정도로 정확하게 인간의 판단을 대신할 수 있음을 보여줍니다.
동시에, 이는 익숙한 윤리적, 방법론적 위험을 제기합니다. 연구진은 단 하나의 제품 범주만 테스트했으며, 동일한 접근 방식이 재정적 결정이나 정치적으로 민감한 주제에도 적용될지는 미지수입니다. 그리고 합성 "소비자"는 쉽게 합성 타깃이 될 수 있습니다. 동일한 모델링 기법이 정치적 설득, 광고 또는 행동 넛지를 최적화하는 데 도움이 될 수 있습니다.
저자들이 말했듯이, "시장 중심의 최적화 압력은 체계적으로 정렬을 침식할 수 있습니다." 이 문구는 마케팅을 훨씬 넘어 공감을 불러일으킵니다.
회의론의 메모
저자들은 테스트 대상인 개인 관리 제품이 제한적이며, 고위험군이나 감정적으로 민감한 구매로 일반화하기 어려울 수 있음을 인정합니다. SSR 매핑은 또한 신중하게 선택된 참고 문헌에 의존합니다. 사소한 문구 변경도 결과를 왜곡할 수 있습니다. 더욱이, 본 연구는 인간 설문 조사 데이터를 "기본 사실"로 사용하는데, 이러한 데이터는 잡음이 많고 문화적 편향이 심한 것으로 악명 높음에도 불구하고 그렇습니다.
비평가들은 임베딩 기반 유사성이 언어 벡터가 인간의 태도에 정확하게 대응한다고 가정하는데, 이 가정은 맥락이나 아이러니가 개입될 경우 틀릴 수 있다고 지적합니다. 논문 자체의 신뢰도 수치(인간의 테스트-재테스트 일관성 90%)는 인상적으로 들리지만, 여전히 상당한 오차가 존재합니다. 숏 말해, 이 방법은 평균적으로는 작동하지만, 그 평균값이 실제 인간의 다양성을 포착하는 것인지, 아니면 단순히 모델의 학습 사전 확률을 반영하는 것인지는 아직 명확하지 않습니다.
더 큰 그림
기업들이 AI 기반 포커스 그룹과 예측 여론조사를 실험함에 따라 2025년 "합성 소비자 모델링"에 대한 학계의 관심이 급증했습니다. MIT와 케임브리지 대학교의 유사 연구에서는 LLM이 인구 통계학적 및 심리 측정적 세그먼트를 중간 정도의 신뢰도로 모방할 수 있음을 보여주었지만, 실제 구매 의도 데이터와 통계적으로 밀접한 일치를 보인 사례는 이전에 없었습니다.
현재 SSR 방법은 연구 프로토타입에 머물러 있지만, LLM이 단순히 질문에 답하는 데 그치지 않고 대중을 대표하게 될 미래를 암시합니다.
그것이 진보된 것인지 아니면 진행 중인 환각인지는 아직 논쟁의 여지가 있습니다.