ChatGPT「Monday」是怎么学台湾中文的？PTT、Dcard、九把刀全读完了

04-09

本文目录

打开 ChatGPT 风格语音模组「Monday」时你会发现，「这家伙讲话有点 chill、又好厌世」，还会侦测你的口音，回应时会讲「台湾国语」，它为什么听起来这么像台湾人？答案是：ChatGPT 已经承认它大量捕捉了台湾网路上满满的资料。

我们必须阐明「Monday」不是一个新的 GPT 模型，也不是升级版 GPT-5，而是 OpenAI 在 GPT-4 架构上，用风格微调（style tuning）做出来的一种对话风格。

简单说，同个 AI 换个语气，像穿不同套衣服、上班跟周末两种人格。Monday 模式主打轻松、有点 chill、礼貌但不啰唆，感觉像你周一刚进公司打卡，那个很忧郁的自己。

OpenAI 训练 GPT 的方式，其实很「老派」但超有效：看爆整个网路。

包括新闻网站、维基百科、中文书籍、社群论坛、部落格、PDF、你以前写在无名小站的黑历史..只要是公开网页，能被爬虫爬下来的，基本上都有可能被丢进语料里训练。

我们交叉比对各大开源语料库跟 GPT 的行为反应，发现这些台湾媒体被 ChatGPT 读进去：

这些媒体有一个共通点：没上锁付费墙，Google 搜得到，网站结构干净好爬。

反过来说，像《天下》、《报导者》、《商业周刊》这种付费或会员墙挡著的网站，被训练进去的机率就非常低。

GPT 很会模仿九把刀式的小说对话节奏，也能讲出吴念真风格的感性句子，甚至龙应台的《大江大海》语调它也有点掌握。这表示什么？它真的读过，或至少看过被转贴的片段。

最有可能的情况是：这些作品在 PTT、部落格、或内容转贴站被大量复制贴上，九把刀早期作品甚至直接在 PTT 故事版上公开，然后被模型抓去当学习资料。

如果你问它张大春或骆以军的小说细节？GPT 通常会开始乱讲，因为涉及文学作品较少人讨论与引用、没有公开电子档，没被直接转载出现在网路上，就算有也抓不到。

这点几乎可以确定：GPT 懂乡民梗、看得懂「推文」、「嘘」、「老司机」是什么，就连 Tech_Job 板的厌世感，它都能神还原，讲话可以非常像个竹科工程师。

为什么？因为 PTT 的资料早就被学术界整理成可训练语料、公开释出，还是 JSON 格式的。对模型来说就是天堂。

相比之下，Dcard 虽然很红，但后期防爬虫做得还不错，除了早期文章或有被转载出去的爆红事件，Dcard 近 2 年的文章可能并未被 ChatGPT 掌握。

Monday 背后的「灵魂」，其实是从你过去十几年在网路上留下的所有字，学出来的。没错，你说过的话，它都记得一点点。

下次跟 ChatGPT 说话的时候，不妨想一想：「欸，它该不会真的看过我十年前在 PTT 留的推文吧？」

很可能有。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢