打开 ChatGPT 风格语音模组「Monday」时你会发现,「这家伙讲话有点 chill、又好厌世」,还会侦测你的口音,回应时会讲「台湾国语」,它为什么听起来这么像台湾人?答案是:ChatGPT 已经承认它大量捕捉了台湾网路上满满的资料。
什么是「Monday 模式」?
我们必须阐明「Monday」不是一个新的 GPT 模型,也不是升级版 GPT-5,而是 OpenAI 在 GPT-4 架构上,用风格微调(style tuning)做出来的一种对话风格。
简单说,同个 AI 换个语气,像穿不同套衣服、上班跟周末两种人格。Monday 模式主打轻松、有点 chill、礼貌但不啰唆,感觉像你周一刚进公司打卡,那个很忧郁的自己。
大量台湾资料的爬虫训练
OpenAI 训练 GPT 的方式,其实很「老派」但超有效:看爆整个网路。
包括新闻网站、维基百科、中文书籍、社群论坛、部落格、PDF、你以前写在无名小站的黑历史..只要是公开网页,能被爬虫爬下来的,基本上都有可能被丢进语料里训练。
我们交叉比对各大开源语料库跟 GPT 的行为反应,发现这些台湾媒体被 ChatGPT 读进去:
- 《联合新闻网》
- 《ETtoday》
- 《中时电子报》
- 《风传媒》
- 《NOWnews》…
这些媒体有一个共通点:没上锁付费墙,Google 搜得到,网站结构干净好爬。
反过来说,像《天下》、《报导者》、《商业周刊》这种付费或会员墙挡著的网站,被训练进去的机率就非常低。
GPT 真的读过台湾作家的作品
GPT 很会模仿九把刀式的小说对话节奏,也能讲出吴念真风格的感性句子,甚至龙应台的《大江大海》语调它也有点掌握。这表示什么?它真的读过,或至少看过被转贴的片段。
最有可能的情况是:这些作品在 PTT、部落格、或内容转贴站被大量复制贴上,九把刀早期作品甚至直接在 PTT 故事版上公开,然后被模型抓去当学习资料。
如果你问它张大春或骆以军的小说细节?GPT 通常会开始乱讲,因为涉及文学作品较少人讨论与引用、没有公开电子档,没被直接转载出现在网路上,就算有也抓不到。
PTT 是 GPT 的台湾语感老师
这点几乎可以确定:GPT 懂乡民梗、看得懂「推文」、「嘘」、「老司机」是什么,就连 Tech_Job 板的厌世感,它都能神还原,讲话可以非常像个竹科工程师。
为什么?因为 PTT 的资料早就被学术界整理成可训练语料、公开释出,还是 JSON 格式的。对模型来说就是天堂。
相比之下,Dcard 虽然很红,但后期防爬虫做得还不错,除了早期文章或有被转载出去的爆红事件,Dcard 近 2 年的文章可能并未被 ChatGPT 掌握。
Monday 背后的「灵魂」,其实是从你过去十几年在网路上留下的所有字,学出来的。没错,你说过的话,它都记得一点点。
下次跟 ChatGPT 说话的时候,不妨想一想:「欸,它该不会真的看过我十年前在 PTT 留的推文吧?」
很可能有。




