活久見!
一個生活在1931年之前,在訓練數據裡沒見過任何一臺計算機,跨越了將近一個世紀的AI——
居然寫出了Python代碼??!!
家人們,這真這不是科幻小說……
模型名叫talkie-1930-13b.
操盤手是AI研究員Nick Levine、多倫多大學副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford。
該模型訓練數據有一條鐵律,那就是1931年1月1日之後的任何一個字都不!準!進!
它不知道電視機、互聯網為何物,它的世界,永遠停在了1930年12月31日的午夜。
然鵝,最最最最魔幻的事兒來了,團隊成員發現:
這個本不該知道羅斯福新政的AI,卻把新政立法說得頭頭是道,連年份都報得出來的內種??
更離大譜的是,當團隊扔給它一道Python編程題時,這個跨越了將近一百年的過去之靈,竟然寫出了它人生中的第一行Python??
一個連計算機都沒聽過的AI,跨越百年寫代碼,這事網友們可坐不住了。
直接一個腦洞瞬間開閘,下面這位小哥連「穿越提問清單」都已經想好了,瘋狂想嘗試ing:
我到底睡醒了沒,AI,真能跨越時空了??
一個生活在1931年之前的老式兒模型
一個在1931年之前生活的模型,上知天文下知地理,還會編程,那咱高低得研究研究。
事實上,talkie是一個130億參數的模型,它在2600億tokens的1931年之前的英文文本上訓練而成——
訓練樣本包括但不限於書籍、報紙、期刊、科學雜誌等等。
從狄更斯到馬克吐溫,從愛因斯坦那年代的物理論文到百年前的烹飪書和禮儀手冊,全都被打包餵了進去!!!
之所以選擇1930年作為模型的知識截止點,也是有說法的,因為這是美國版權法中作品進入公有領域的邊界~
那問題來了,為啥Alec Radford想做這麼個項目呢?
事實上Radford及其團隊想知道——
如果只讓一個模型閱讀1931年之前的所有英文文本,它會如何思考、如何對話、如何預測未來。
結果您猜怎麼著,團隊還真發現了幾個《大瓜》。(好傢伙.jpg)
模型被時代發展震驚到眩暈癱坐
第一個發現,就是模型被時代發展「震撼到了」的曲線圖——
團隊從《紐約時報》的On This Day欄目裡翻出了近5000個歷史事件,一股腦兒全餵給了talkie,然後盯著屏幕看——這老兄對每件事到底有多「沒料到」。
結果一條相當戲劇性的曲線就這麼出來了:
1930年之前:talkie讀得行雲流水,驚訝值穩如老狗。 (talkie:嗯嗯,這些事兒俺都門兒清哈)
剛跨過1930年:talkie驚訝值開始悄悄爬升。 (talkie:誒?這事兒咋還能這樣?)
1950–60年代:晶體管、電視機普及的年代,talkie驚訝值直接陡峭飆升,一柱擎天。 (talkie:等會兒,人類上天了?還整出個會動的盒子能放戲?)
再往後嘛——直接佛系平和了。(talkie:眩暈震撼癱坐,人已懵,您隨便吧……)
這波,也是劉姥姥進大觀園了——質疑、理解、接受。
這模型還學會了Python
當然,眩暈震撼癱坐曲線圖還不是這次研究中最炸裂的發現,因為團隊成員的第二個發現是——
一個沒見過電腦的AI,居然學會了寫Python???
在研究中,團隊給talkie扔了一份OpenAI的HumanEval編程測試集。
在prompt裡塞幾個Python函數當示範例子,然後讓talkie看完直接解新題,也就是讓模型靠上下文現學現賣~
在這個測試中,團隊還順手把訓練過現代互聯網數據的同架構talkie-web也拉出來一起測,並畫張對比折線圖——
(黑線:Vintage LM,灰線:Modern LM)
結果就是一個雷霆暴擊,talkie真的解出來了,人家直接把加密函數里的+5改成-5,然後交卷。
是的,只改了一個字符,但答案完全正確……
不僅如此,團隊發現一個清晰的趨勢,那就是——模型規模越大,能解出來的編程題越多。
換句話說,雖然目前還遠不及現代模型,但復古模型的「憑空學代碼」的能力也在Scaling Law的作用下穩步爬升。
對此團隊也表示,他們希望復古模型能幫整個AI圈搞清楚一個根本問題——LLM到底能泛化到訓練數據之外多遠。
1930年模型VS2026年模型
老話說得好,有對比才有看頭新發現。
為了搞清楚talkie到底有幾斤幾兩,團隊還用完全相同的架構和算力,又訓練了一個喂現代互聯網數據的雙胞胎——talkie-web-13b。
並將兩個模型放進各種標準LLM評測裡打PK,結果可以說甚是微妙:
不出意外,talkie-1930在實際表現上確實落後於現代孿生兄弟。
但是當研究員把那些超出知識範圍的題目剔除後(比如互聯網、DNA相關的),兩者的差距直接縮小一半。
更炸裂的是,在核心語言理解和數學計算任務上,新老模型的表現幾乎一樣好。
這個結論某種程度也說明了「理解語言」和「算數」這兩項能力,似乎並不依賴你讀了多少現代互聯網內容。
剩下的差距,團隊認為主要來自兩個原因:一是OCR轉錄質量太差,畢竟1930年的報紙都是從掃描件裡硬摳出來的。
二是語料題材分佈不同,例如老報紙里科技含量低,烹飪禮儀含量高。
emm…大模型最值錢的那部分智能,可能跟「讀沒讀過現代互聯網」沒太大關係??
(talkie:俺要是生在2026年,我也能背GitHub啊喂!)
用1930年的禮儀手冊,把AI調教成了聊天助手
大家知都道,要想讓talkie這樣的模型變成能對話的AI助手,傳統做法是用ChatGPT那種現代指令數據。
但問題是,這樣做會把21世紀的對話風格、價值觀等時代元素統統注入回1930年的模型。
(talkie:好不容易當上民國先生,您一指令調教,俺直接張口就說「寶子們」了…)
而團隊的解決辦法,可以說是《神來之筆》——
他們直接去1930年之前的故紙堆裡,考古出了一套訓練數據:
包括教人怎麼得體應答的禮儀手冊、教人怎麼回信的書信指南等等,然後再用Claude Sonnet 4.6當老師做強化學習訓練,最後生成訓練數據。
就靠著這些百年前的天然問答語料,團隊硬是把talkie調教成了一個能聊天的AI助手。
然而,現實很快啪啪打臉——
團隊發現,早期那個7B版本的talkie,經過強化學習之後,居然學會了用現代互聯網那種1. 2. 3.的列表體說話。
要知道1930年的語料裡,壓根沒有列表體這種超級現代感的東西的…..
而罪魁禍首——就是Sonnet 4.6。
因為Claude老師是現代AI,因為Claude老師喜歡列表體,所以talkie為了拿高分就學著用列表體說話了…
(真·投其所好啊…)
這恰好也反映出模型的訓練一大問題,那就是AI反饋的訓練方式,不可避免地會讓模型沾上現代風格。
為了解決這個大bug,團隊的下一個目標就是:有朝一日讓talkie自己來當自己的老師。(doge)
Alec Radford是誰
talkie背後的團隊成員之一——Alec Radford,也值得我們好好聊聊。
關於他,我們甚至可以說,今天AI圈的一大半「基建」,都跟他有關。
在OpenAI的近十年裡,他是和Ilya Sutskever齊名的技術大神,初代GPT系列的奠基者——
包攬了GPT-1和GPT-2論文一作,也是GPT-3、GPT-4的核心貢獻者,此外他還是多模態模型CLIP的主導者之一,像Whisper、DALL·E也都有他深度參與的身影。
他在2018年那篇開山之作裡首次提出的基於Transformer的生成式預訓練方法,直接奠定了後續ChatGPT和所有大模型的基礎。
在2024年底,Alec告別老東家OpenAI轉做獨立研究, 2025年3月,他又以顧問身份加入了前OpenAI CTO Mira Murati創立的Thinking Machines Lab。
當我們回過頭再看talkie本身,感覺整個事情也頗值得玩味——
當全世界都在卷AGI、卷推理模型的時候,GPT系列之父本人,卻跑去和搭檔們造了一個只活在1930年的AI。
按團隊的路線圖,今年夏天,GPT-3級別的復古模型就要發佈,再往後,他們還想把語料擴展到一萬億tokens、擴展到非英語世界。
只是不知道,當它再次醒來的那一天,看到機器人跑馬拉松、人手一臺的智能手機、和遍地跑的Agent時——
會不會再次原地眩暈震撼癱坐.jpg。
(模型使用入口我放下面了,感興趣的友友可以和一百年前的AI對話試試~)
參考鏈接:
[1]報告鏈接:https://talkie-lm.com/introducing-talkie
[2]github鏈接:https://huggingface.co/talkie-lm
[3]模型對話入口:https://talkie-lm.com/chat
本文來自微信公眾號“量子位”,作者:夢瑤,36氪經授權發佈。






