傑羅姆·佩森蒂 (Jerome Pesenti) 有幾個理由慶祝 Meta 上週決定發佈 Llama 3 ,這是一個強大的開源大型語言模型,任何人都可以下載、運行和構建。
佩森蒂曾擔任Meta的人工智能副總裁,他說他經常敦促公司考慮將其技術發佈給其他人使用和開發。但他高興的主要原因是,他的新創業公司將獲得一個人工智能模型,他說這個模型的功能非常接近OpenAI 業界領先的文本生成器 GPT-4 ,但運行成本要低得多,而且更容易接受外部審查和修改。
“上週五發布的版本確實讓人感覺像是改變了遊戲規則,”佩森蒂說。他的新公司Sizzle是一家人工智能導師,目前使用 GPT-4 和其他人工智能模型(包括封閉式和開放式)為學生設計作業集和課程。他的工程師正在評估 Llama 3 是否可以在許多情況下取代 OpenAI 的模型。
Sizzle 的故事可能預示著人工智能力量平衡將發生更廣泛的轉變。OpenAI 用 ChatGPT 改變了世界,掀起了人工智能投資浪潮,吸引了 200 多萬開發人員使用其雲 API。但如果開源模型證明具有競爭力,開發人員和企業家可能會決定停止付費使用 OpenAI 或谷歌的最新模型,轉而使用 Llama 3 或其他日益強大的開源模型。
佩森蒂在談到 Llama 3 等開放模型與 GPT-4 和谷歌的Gemini等封閉模型之間的競爭時表示:“這將是一場有趣的賽馬。”
Meta 的上一個模型 Llama 2 已經頗具影響力,但該公司表示,通過向其提供大量高質量的訓練數據,並開發新技術來過濾掉冗餘或混亂的內容並選擇最佳的數據集組合,它使最新版本更加強大。
Pesenti 表示,在Fireworks.ai等雲平臺上運行 Llama 3 的成本僅為通過 API 訪問 GPT-4 成本的二十分之一。他補充說,Llama 3 可以配置為極快地響應查詢,這對於像他這樣的公司依賴於利用來自不同提供商的模型的開發人員來說是一個關鍵考慮因素。“這是延遲、成本和準確性之間的等式,”他說。
開放模型似乎正在以驚人的速度下降。幾周前,我走進初創公司 Databricks ,見證了構建 DBRX 的最後階段,這是一個語言模型,曾一度成為最好的開放模型。現在,這個桂冠屬於 Llama 3。Databricks 首席執行官 Ali Ghodsi 也將 Llama 3 描述為“改變遊戲規則的”,並表示更大的模型“正在接近 GPT 4 的質量——這為開源和閉源 LLM 創造了公平的競爭環境。”
Llama 3 還展示了縮小 AI 模型的潛力,這樣它們就可以在性能較弱的硬件上運行。Meta 發佈了其最新模型的兩個版本,一個版本有 700 億個參數(衡量它從訓練數據中學習的變量的數量),另一個版本有 80 億個參數。較小的模型足夠緊湊,可以在筆記本電腦上運行,但性能非常出色,至少在《連線》雜誌的測試中是如此。
在 Meta 發佈前兩天,由 Pesenti 在 Meta 團隊的校友創立的法國 AI 公司Mistral開源了Mixtral 8x22B。它有 1410 億個參數,但每次只使用其中的 390 億個參數,這種設計被稱為專家混合。得益於這一技巧,該模型比一些大得多的模型功能強大得多。
Meta 並不是唯一一家發佈開源 AI 的科技巨頭。本週,微軟發佈了Phi-3-mini ,蘋果發佈了OpenELM ,這是兩個可以在智能手機上運行的小型但功能強大的免費語言模型。
未來幾個月將會證明 Llama 3 和其他開放模型是否真的能夠取代 GPT-4 等高端 AI 模型,供一些開發人員使用。更強大的開源 AI 即將問世。該公司正在開發一個擁有 4000 億個參數的 Llama 3 版本,首席 AI 科學家Yann LeCun表示,該版本應該是世界上最強大的版本之一。
當然,所有這些開放並非純粹出於利他主義。Meta 首席執行官馬克·扎克伯格表示,開放其 AI 模型最終應該會給公司帶來好處,因為它可以降低所依賴技術的成本,例如通過產生 Meta 可以自己使用的兼容工具和服務。他沒有說,阻止 OpenAI、微軟或谷歌主導該領域也可能對 Meta 有利。





