大模型桌遊試玩員來了：用五大畫像模擬「千人千面」，評分精準度超越GPT-5.1

36氪

大模型桌遊體驗官來了！不僅能快速給出評價與建議，還能模擬不同類型玩家的體驗差異。

近期，來自盛大東京研究院、上海創智學院、南開大學、上海人工智能實驗室的研究團隊聯合提出了MeepleLM，這是首個能模擬真實玩家視角，並基於動態遊戲體驗給出建設性批評的虛擬試玩模型。

為了減輕AI評價的“懸浮感”，研究團隊構建了包含1,727本結構化桌遊規則手冊與15萬條玩家真實評論的專屬數據集，建立了從“客觀規則”到“主觀體驗”的映射關係。

在此基礎上，團隊引入經典的MDA（機制-動態-美學）遊戲設計理論構建推理核心，使模型能夠跨越靜態文字、推演遊戲運行時的動態交互，並進一步從評價數據中提煉出五種典型玩家畫像，讓AI內化特定偏好以模擬“千人千面”的真實感受。

實驗表明，MeepleLM在還原玩家口碑與評分分佈的精準度上，顯著優於GPT-5.1和Gemini3-Pro等通用模型。

桌遊設計的“盲盒”困境

桌遊產業正在經歷快速增長，但其設計過程仍面臨巨大挑戰。與電子遊戲不同，桌遊的體驗高度依賴於玩家之間的社交互動和規則的湧現效應（EmergentGameplay）。

傳統的設計流程極其依賴人工試玩（Playtesting），這不僅耗時耗力，而且很難覆蓋所有類型的玩家偏好。現有的通用大模型（LLM）雖然能理解文本，但往往缺乏對“遊戲機制如何轉化為情感體驗”的深度理解，生成的建議通常是模稜兩可的“場面話”，或者僅僅是複述規則，無法提供基於不同玩家視角的深刻洞察。

為了打破這一僵局，研究團隊提出了MeepleLM，一個不僅能讀懂規則，還能“模擬人心”的虛擬試玩者。

△

教AI像設計師一樣思考

MeepleLM的核心突破在於它並未將評價視為簡單的文本生成任務，而是構建了一條從客觀規則到主觀體驗的認知鏈路。

1. 高質量的專業數據集

團隊首先通過分層採樣策略選取了1,727款覆蓋不同複雜度與年份的代表性遊戲，將非結構化的PDF規則書轉化為結構化的文檔。構建了一個包含1,727本結構化規則書和15萬條高質量評論的數據集。

同時，針對180萬條海量評論，團隊設計了一套包含硬過濾、MDA評分與語義維度識別的自動化處理流程，最終篩選出約8%能夠深度關聯“遊戲機制”與“動態體驗”的高質量語料，確保模型學到的是真正的“體驗洞察”。

△

2. MDA認知鏈（Chain-of-Thought）

為了讓模型理解“好玩”的成因，MeepleLM引入了遊戲設計經典的MDA框架（Mechanics-Dynamics-Aesthetics）作為思維鏈：

Mechanics（機制）：遊戲裡有什麼規則？（TheWhat）

Dynamics（動態）：規則運行時發生了什麼交互？（TheHow）

Aesthetics（美學）：這種交互帶給玩傢什麼情感體驗？（TheFeel）

通過這種顯式的推理路徑，模型不再是瞎猜，而是邏輯嚴密地推導出體驗結果。

3. 五大玩家畫像（Personas）

“彼之蜜糖，吾之砒霜”。不同玩家對同一機制的反應截然不同。研究團隊通過聚類分析，提煉出了五種典型的數據驅動型玩家畫像：

The System Purist：追求極致的平衡與邏輯，痛恨隨機性。

The Efficiency Essentialist：追求流暢的節奏，厭惡繁瑣的操作。

The Narrative Architect：沉浸故事與代入感，機制服務於主題。

The Social Lubricator：玩遊戲是為了社交，喜歡嘴炮和互動。

The Thrill Seeker：追求高風險高回報的快感，享受骰子。

MeepleLM能夠“角色扮演”這些特定畫像，從而給出帶有特定偏好但多樣的反饋。

△

更懂玩家的虛擬評測員

為了驗證效果，研究團隊在207款遊戲（包含2024-2025年發佈的新作）上進行了廣泛測試。

△

1. 宏觀評分對齊：

通用大模型（如GPT-5.1）往往像一個圓滑的“老好人”，傾向於打出7~10分的安全分。而MeepleLM克服了這種“正向偏差”，這意味著它不僅能識別優點，更能敏銳捕捉到那些導致玩家“退坑”的致命缺陷，精準還原出真實社區中口碑兩極分化的評價形態。

△

2. 微觀評價質量：

在評論內容的生成上，MeepleLM兼顧了事實準確性（Factuality）和觀點多樣性（Diversity）。如圖6所示的關於《一夜終極狼人》的評價，Qwen3-8B採用一種通用的誇張煽情語氣（“悲情劇場”），GPT-5.1聽起來像一位冷漠的記者（“社交萬能潤滑劑”），但MeepleLM卻能真實捕捉到每個角色的獨特聲音。

模型能在社交語境中自如切換到社區俚語（例如“阿爾法玩家”），在面對純粹主義者時又能轉為技術評論（例如“變體規則”），這證明它並非只是在檢索知識，而是真正在模擬玩家的視角。

△

3. 實用價值：

從歷史評論提取真實觀點，再與模型生成的模擬評論進行語義匹配，結果顯示MeepleLM的Op-Rec最高，證明其在預測市場反饋和呈現多樣玩家意見方面具有實用價值。

在包含10位不同類型玩家的A/B盲測中，MeepleLM在真實性（Authenticity）和決策輔助（DecisionConfidence）等維度上均大幅領先GPT-5.1。70%以上的用戶傾向於使用MeepleLM作為購買決策的參考，用戶稱其“不太像營銷話術”，並且在識別潛在設計缺陷方面更有效。

交互系統評估新範式

通過連接靜態規則與動態體驗，MeepleLM為通用交互系統的自動化虛擬測試建立了一種新範式：

既能基於預期的市場反饋加速設計迭代，也能幫助玩家進行個性化選擇。這為“體驗感知型”的人機協作鋪平了道路，使模型從單純的功能工具逐漸演變為能夠體察主觀受眾感受的共情型夥伴。

論文標題：

MeepleLM:A Virtual Playtester Simulating Diverse Subjective Experiences

論文鏈接：

https://arxiv.org/abs/2601.07251

項目鏈接：

https://github.com/leroy9472/MeepleLM

第一作者：

Zizhen Li（Shanda AI Research Tokyo/南開大學）

通訊作者：

Kaipeng Zhang（Shanda AI Research Tokyo）

本文來自微信公眾號“量子位”，作者：MeepleLM團隊，36氪經授權發佈。