GPT之父:只用上世紀數據訓AI,它居然也會寫Python?

avatar
36氪
04-30

活久見!

一個生活在1931年之前,在訓練數據裡沒見過任何一臺計算機,跨越了將近一個世紀的AI——

居然寫出了Python代碼??!!

家人們,這真這不是科幻小說……

模型名叫talkie-1930-13b.

操盤手是AI研究員Nick Levine、多倫多大學副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford

該模型訓練數據有一條鐵律,那就是1931年1月1日之後的任何一個字都不!準!進!

它不知道電視機、互聯網為何物,它的世界,永遠停在了1930年12月31日的午夜。

然鵝,最最最最魔幻的事兒來了,團隊成員發現:

這個本不該知道羅斯福新政的AI,卻把新政立法說得頭頭是道,連年份都報得出來的內種??

更離大譜的是,當團隊扔給它一道Python編程題時,這個跨越了將近一百年的過去之靈,竟然寫出了它人生中的第一行Python??

一個連計算機都沒聽過的AI,跨越百年寫代碼,這事網友們可坐不住了。

直接一個腦洞瞬間開閘,下面這位小哥連「穿越提問清單」都已經想好了,瘋狂想嘗試ing:

我到底睡醒了沒,AI,真能跨越時空了??

一個生活在1931年之前的老式兒模型

一個在1931年之前生活的模型,上知天文下知地理,還會編程,那咱高低得研究研究。

事實上,talkie是一個130億參數的模型,它在2600億tokens的1931年之前的英文文本上訓練而成——

訓練樣本包括但不限於書籍、報紙、期刊、科學雜誌等等。

從狄更斯到馬克吐溫,從愛因斯坦那年代的物理論文到百年前的烹飪書和禮儀手冊,全都被打包餵了進去!!!

之所以選擇1930年作為模型的知識截止點,也是有說法的,因為這是美國版權法中作品進入公有領域的邊界~

那問題來了,為啥Alec Radford想做這麼個項目呢?

事實上Radford及其團隊想知道——

如果只讓一個模型閱讀1931年之前的所有英文文本,它會如何思考、如何對話、如何預測未來。

結果您猜怎麼著,團隊還真發現了幾個《大瓜》。(好傢伙.jpg)

模型被時代發展震驚到眩暈癱坐

第一個發現,就是模型被時代發展「震撼到了」的曲線圖——

團隊從《紐約時報》的On This Day欄目裡翻出了近5000個歷史事件,一股腦兒全餵給了talkie,然後盯著屏幕看——這老兄對每件事到底有多「沒料到」。

結果一條相當戲劇性的曲線就這麼出來了:

1930年之前:talkie讀得行雲流水,驚訝值穩如老狗。 (talkie:嗯嗯,這些事兒俺都門兒清哈)

剛跨過1930年:talkie驚訝值開始悄悄爬升。 (talkie:誒?這事兒咋還能這樣?)

1950–60年代:晶體管、電視機普及的年代,talkie驚訝值直接陡峭飆升,一柱擎天。 (talkie:等會兒,人類上天了?還整出個會動的盒子能放戲?)

再往後嘛——直接佛系平和了。(talkie:眩暈震撼癱坐,人已懵,您隨便吧……)

這波,也是劉姥姥進大觀園了——質疑、理解、接受。

這模型還學會了Python

當然,眩暈震撼癱坐曲線圖還不是這次研究中最炸裂的發現,因為團隊成員的第二個發現是——

一個沒見過電腦的AI,居然學會了寫Python???

在研究中,團隊給talkie扔了一份OpenAI的HumanEval編程測試集。

在prompt裡塞幾個Python函數當示範例子,然後讓talkie看完直接解新題,也就是讓模型靠上下文現學現賣~

在這個測試中,團隊還順手把訓練過現代互聯網數據的同架構talkie-web也拉出來一起測,並畫張對比折線圖——

(黑線:Vintage LM,灰線:Modern LM)

結果就是一個雷霆暴擊,talkie真的解出來了,人家直接把加密函數里的+5改成-5,然後交卷。

是的,只改了一個字符,但答案完全正確……

不僅如此,團隊發現一個清晰的趨勢,那就是——模型規模越大,能解出來的編程題越多。

換句話說,雖然目前還遠不及現代模型,但復古模型的「憑空學代碼」的能力也在Scaling Law的作用下穩步爬升。

對此團隊也表示,他們希望復古模型能幫整個AI圈搞清楚一個根本問題——LLM到底能泛化到訓練數據之外多遠。

1930年模型VS2026年模型

老話說得好,有對比才有看頭新發現。

為了搞清楚talkie到底有幾斤幾兩,團隊還用完全相同的架構和算力,又訓練了一個喂現代互聯網數據的雙胞胎——talkie-web-13b

並將兩個模型放進各種標準LLM評測裡打PK,結果可以說甚是微妙:

不出意外,talkie-1930在實際表現上確實落後於現代孿生兄弟。

但是當研究員把那些超出知識範圍的題目剔除後(比如互聯網、DNA相關的),兩者的差距直接縮小一半

更炸裂的是,在核心語言理解和數學計算任務上,新老模型的表現幾乎一樣好。

這個結論某種程度也說明了「理解語言」和「算數」這兩項能力,似乎並不依賴你讀了多少現代互聯網內容。

剩下的差距,團隊認為主要來自兩個原因:一是OCR轉錄質量太差,畢竟1930年的報紙都是從掃描件裡硬摳出來的。

二是語料題材分佈不同,例如老報紙里科技含量低,烹飪禮儀含量高。

emm…大模型最值錢的那部分智能,可能跟「讀沒讀過現代互聯網」沒太大關係??

(talkie:俺要是生在2026年,我也能背GitHub啊喂!)

用1930年的禮儀手冊,把AI調教成了聊天助手

大家知都道,要想讓talkie這樣的模型變成能對話的AI助手,傳統做法是用ChatGPT那種現代指令數據。

但問題是,這樣做會把21世紀的對話風格、價值觀等時代元素統統注入回1930年的模型。

(talkie:好不容易當上民國先生,您一指令調教,俺直接張口就說「寶子們」了…)

而團隊的解決辦法,可以說是《神來之筆》——

他們直接去1930年之前的故紙堆裡,考古出了一套訓練數據:

包括教人怎麼得體應答的禮儀手冊、教人怎麼回信的書信指南等等,然後再用Claude Sonnet 4.6當老師做強化學習訓練,最後生成訓練數據。

就靠著這些百年前的天然問答語料,團隊硬是把talkie調教成了一個能聊天的AI助手。

然而,現實很快啪啪打臉——

團隊發現,早期那個7B版本的talkie,經過強化學習之後,居然學會了用現代互聯網那種1. 2. 3.的列表體說話。

要知道1930年的語料裡,壓根沒有列表體這種超級現代感的東西的…..

而罪魁禍首——就是Sonnet 4.6。

因為Claude老師是現代AI,因為Claude老師喜歡列表體,所以talkie為了拿高分就學著用列表體說話了…

(真·投其所好啊…)

這恰好也反映出模型的訓練一大問題,那就是AI反饋的訓練方式,不可避免地會讓模型沾上現代風格。

為了解決這個大bug,團隊的下一個目標就是:有朝一日讓talkie自己來當自己的老師。(doge)

Alec Radford是誰

talkie背後的團隊成員之一——Alec Radford,也值得我們好好聊聊。

關於他,我們甚至可以說,今天AI圈的一大半「基建」,都跟他有關。

在OpenAI的近十年裡,他是和Ilya Sutskever齊名的技術大神,初代GPT系列的奠基者——

包攬了GPT-1和GPT-2論文一作,也是GPT-3、GPT-4的核心貢獻者,此外他還是多模態模型CLIP的主導者之一,像Whisper、DALL·E也都有他深度參與的身影。

他在2018年那篇開山之作裡首次提出的基於Transformer的生成式預訓練方法,直接奠定了後續ChatGPT和所有大模型的基礎。

在2024年底,Alec告別老東家OpenAI轉做獨立研究, 2025年3月,他又以顧問身份加入了前OpenAI CTO Mira Murati創立的Thinking Machines Lab。

當我們回過頭再看talkie本身,感覺整個事情也頗值得玩味——

當全世界都在卷AGI、卷推理模型的時候,GPT系列之父本人,卻跑去和搭檔們造了一個只活在1930年的AI。

按團隊的路線圖,今年夏天,GPT-3級別的復古模型就要發佈,再往後,他們還想把語料擴展到一萬億tokens、擴展到非英語世界。

只是不知道,當它再次醒來的那一天,看到機器人跑馬拉松、人手一臺的智能手機、和遍地跑的Agent時——

會不會再次原地眩暈震撼癱坐.jpg。

(模型使用入口我放下面了,感興趣的友友可以和一百年前的AI對話試試~)

參考鏈接:

[1]報告鏈接:https://talkie-lm.com/introducing-talkie

[2]github鏈接:https://huggingface.co/talkie-lm

[3]模型對話入口:https://talkie-lm.com/chat

本文來自微信公眾號“量子位”,作者:夢瑤,36氪經授權發佈。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論