GPT之父：只用上世紀數據訓AI，它居然也會寫Python？

36氪

04-30

活久見！

一個生活在1931年之前，在訓練數據裡沒見過任何一臺計算機，跨越了將近一個世紀的AI——

居然寫出了Python代碼？？！！

家人們，這真這不是科幻小說……

模型名叫talkie-1930-13b.

操盤手是AI研究員Nick Levine、多倫多大學副教授David Duvenaud，以及大家熟悉的那位——真·GPT系列之父Alec Radford。

該模型訓練數據有一條鐵律，那就是1931年1月1日之後的任何一個字都不！準！進！

它不知道電視機、互聯網為何物，它的世界，永遠停在了1930年12月31日的午夜。

然鵝，最最最最魔幻的事兒來了，團隊成員發現：

這個本不該知道羅斯福新政的AI，卻把新政立法說得頭頭是道，連年份都報得出來的內種？？

更離大譜的是，當團隊扔給它一道Python編程題時，這個跨越了將近一百年的過去之靈，竟然寫出了它人生中的第一行Python？？

一個連計算機都沒聽過的AI，跨越百年寫代碼，這事網友們可坐不住了。

直接一個腦洞瞬間開閘，下面這位小哥連「穿越提問清單」都已經想好了，瘋狂想嘗試ing：

我到底睡醒了沒，AI，真能跨越時空了？？

一個生活在1931年之前的老式兒模型

一個在1931年之前生活的模型，上知天文下知地理，還會編程，那咱高低得研究研究。

事實上，talkie是一個130億參數的模型，它在2600億tokens的1931年之前的英文文本上訓練而成——

訓練樣本包括但不限於書籍、報紙、期刊、科學雜誌等等。

從狄更斯到馬克吐溫，從愛因斯坦那年代的物理論文到百年前的烹飪書和禮儀手冊，全都被打包餵了進去！！！

之所以選擇1930年作為模型的知識截止點，也是有說法的，因為這是美國版權法中作品進入公有領域的邊界～

那問題來了，為啥Alec Radford想做這麼個項目呢？

事實上Radford及其團隊想知道——

如果只讓一個模型閱讀1931年之前的所有英文文本，它會如何思考、如何對話、如何預測未來。

結果您猜怎麼著，團隊還真發現了幾個《大瓜》。（好傢伙.jpg）

模型被時代發展震驚到眩暈癱坐

第一個發現，就是模型被時代發展「震撼到了」的曲線圖——

團隊從《紐約時報》的On This Day欄目裡翻出了近5000個歷史事件，一股腦兒全餵給了talkie，然後盯著屏幕看——這老兄對每件事到底有多「沒料到」。

結果一條相當戲劇性的曲線就這麼出來了：

1930年之前：talkie讀得行雲流水，驚訝值穩如老狗。（talkie：嗯嗯，這些事兒俺都門兒清哈）

剛跨過1930年：talkie驚訝值開始悄悄爬升。（talkie：誒？這事兒咋還能這樣？）

1950–60年代：晶體管、電視機普及的年代，talkie驚訝值直接陡峭飆升，一柱擎天。（talkie：等會兒，人類上天了？還整出個會動的盒子能放戲？）

再往後嘛——直接佛系平和了。（talkie：眩暈震撼癱坐，人已懵，您隨便吧……）

這波，也是劉姥姥進大觀園了——質疑、理解、接受。

這模型還學會了Python

當然，眩暈震撼癱坐曲線圖還不是這次研究中最炸裂的發現，因為團隊成員的第二個發現是——

一個沒見過電腦的AI，居然學會了寫Python？？？

在研究中，團隊給talkie扔了一份OpenAI的HumanEval編程測試集。

在prompt裡塞幾個Python函數當示範例子，然後讓talkie看完直接解新題，也就是讓模型靠上下文現學現賣～

在這個測試中，團隊還順手把訓練過現代互聯網數據的同架構talkie-web也拉出來一起測，並畫張對比折線圖——

（黑線：Vintage LM，灰線：Modern LM）

結果就是一個雷霆暴擊，talkie真的解出來了，人家直接把加密函數里的+5改成-5，然後交卷。

是的，只改了一個字符，但答案完全正確……

不僅如此，團隊發現一個清晰的趨勢，那就是——模型規模越大，能解出來的編程題越多。

換句話說，雖然目前還遠不及現代模型，但復古模型的「憑空學代碼」的能力也在Scaling Law的作用下穩步爬升。

對此團隊也表示，他們希望復古模型能幫整個AI圈搞清楚一個根本問題——LLM到底能泛化到訓練數據之外多遠。

1930年模型VS2026年模型

老話說得好，有對比才有看頭新發現。

為了搞清楚talkie到底有幾斤幾兩，團隊還用完全相同的架構和算力，又訓練了一個喂現代互聯網數據的雙胞胎——talkie-web-13b。

並將兩個模型放進各種標準LLM評測裡打PK，結果可以說甚是微妙：

不出意外，talkie-1930在實際表現上確實落後於現代孿生兄弟。

但是當研究員把那些超出知識範圍的題目剔除後（比如互聯網、DNA相關的），兩者的差距直接縮小一半。

更炸裂的是，在核心語言理解和數學計算任務上，新老模型的表現幾乎一樣好。

這個結論某種程度也說明了「理解語言」和「算數」這兩項能力，似乎並不依賴你讀了多少現代互聯網內容。

剩下的差距，團隊認為主要來自兩個原因：一是OCR轉錄質量太差，畢竟1930年的報紙都是從掃描件裡硬摳出來的。

二是語料題材分佈不同，例如老報紙里科技含量低，烹飪禮儀含量高。

emm…大模型最值錢的那部分智能，可能跟「讀沒讀過現代互聯網」沒太大關係？？

（talkie：俺要是生在2026年，我也能背GitHub啊喂！）

用1930年的禮儀手冊，把AI調教成了聊天助手

大家知都道，要想讓talkie這樣的模型變成能對話的AI助手，傳統做法是用ChatGPT那種現代指令數據。

但問題是，這樣做會把21世紀的對話風格、價值觀等時代元素統統注入回1930年的模型。

（talkie：好不容易當上民國先生，您一指令調教，俺直接張口就說「寶子們」了…）

而團隊的解決辦法，可以說是《神來之筆》——

他們直接去1930年之前的故紙堆裡，考古出了一套訓練數據：

包括教人怎麼得體應答的禮儀手冊、教人怎麼回信的書信指南等等，然後再用Claude Sonnet 4.6當老師做強化學習訓練，最後生成訓練數據。

就靠著這些百年前的天然問答語料，團隊硬是把talkie調教成了一個能聊天的AI助手。

然而，現實很快啪啪打臉——

團隊發現，早期那個7B版本的talkie，經過強化學習之後，居然學會了用現代互聯網那種1. 2. 3.的列表體說話。

要知道1930年的語料裡，壓根沒有列表體這種超級現代感的東西的…..

而罪魁禍首——就是Sonnet 4.6。

因為Claude老師是現代AI，因為Claude老師喜歡列表體，所以talkie為了拿高分就學著用列表體說話了…

（真·投其所好啊…)

這恰好也反映出模型的訓練一大問題，那就是AI反饋的訓練方式，不可避免地會讓模型沾上現代風格。

為了解決這個大bug，團隊的下一個目標就是：有朝一日讓talkie自己來當自己的老師。（doge）

Alec Radford是誰

talkie背後的團隊成員之一——Alec Radford，也值得我們好好聊聊。

關於他，我們甚至可以說，今天AI圈的一大半「基建」，都跟他有關。

在OpenAI的近十年裡，他是和Ilya Sutskever齊名的技術大神，初代GPT系列的奠基者——

包攬了GPT-1和GPT-2論文一作，也是GPT-3、GPT-4的核心貢獻者，此外他還是多模態模型CLIP的主導者之一，像Whisper、DALL·E也都有他深度參與的身影。

他在2018年那篇開山之作裡首次提出的基於Transformer的生成式預訓練方法，直接奠定了後續ChatGPT和所有大模型的基礎。

在2024年底，Alec告別老東家OpenAI轉做獨立研究， 2025年3月，他又以顧問身份加入了前OpenAI CTO Mira Murati創立的Thinking Machines Lab。

當我們回過頭再看talkie本身，感覺整個事情也頗值得玩味——

當全世界都在卷AGI、卷推理模型的時候，GPT系列之父本人，卻跑去和搭檔們造了一個只活在1930年的AI。

按團隊的路線圖，今年夏天，GPT-3級別的復古模型就要發佈，再往後，他們還想把語料擴展到一萬億tokens、擴展到非英語世界。

只是不知道，當它再次醒來的那一天，看到機器人跑馬拉松、人手一臺的智能手機、和遍地跑的Agent時——

會不會再次原地眩暈震撼癱坐.jpg。

(模型使用入口我放下面了，感興趣的友友可以和一百年前的AI對話試試～)

參考鏈接：

[1]報告鏈接：https://talkie-lm.com/introducing-talkie

[2]github鏈接：https://huggingface.co/talkie-lm

[3]模型對話入口：https://talkie-lm.com/chat

本文來自微信公眾號“量子位”，作者：夢瑤，36氪經授權發佈。