Meta 發佈了 Llama 3,這是目前最先進的開源大型語言模型。它建立在其前身 Llama 2 的基礎之上,考慮到有傳言稱該模型將於下個月發佈,這著實令人意外。
憑藉其開源根基,Llama-2 在其他強大模型(如Mixtral 、Alpaca、Vicuna 和 WizardLM)的並行開發中發揮了重要作用。現在,Llama-3 有望進一步提升這些能力,提供與 OpenAI 目前的旗艦 AI 模型 GPT-4 相當的功能。
Meta將週四發佈的版本譽為“我們最先進的開源大型語言模型的下一代”。這家科技巨頭對自己的能力充滿信心,Llama 3 為Meta AI提供支持,而 Meta AI 又被添加到該公司幾乎所有廣受歡迎的應用程序中:Instagram、Facebook 和 WhatsApp。它已在部分國家/地區推出,但其他地區的用戶可以通過 VPN 訪問它。
Meta AI 的 Chatbot 界面與 ChatGPT Plus 相當——而且是免費的。
馬克·扎克伯格在 Facebook 帖子中表示:“我們正在使用我們最新的 Llama 3 AI 模型對 Meta AI 進行升級,我們正在開源該模型。有了這個新模型,我們相信 Meta AI 現在是最智能的 AI 助手,你可以自由使用。”
Decrypt測試了這款新 AI,發現它無需付費訂閱,就能像 ChatGPT-Plus 一樣強大。它可以生成圖像和動畫、生成代碼,並提供連貫、與上下文相關的響應。這款新聊天機器人還可以訪問互聯網,但它仍然無法與 Perplexity 等專業解決方案相媲美。
也許唯一的缺點是 Llama-3 當前的上下文窗口僅限於 8K 個標記(大約 6,000 個單詞)。
Meta 確實發佈了一個 700 億參數的 Llama-3 模型,但使用它需要強大的計算能力——可能需要一整架 GPU。根據綜合基準測試,該模型擊敗了Gemini 1.5 Pro 和 Claude 3 Sonnet。
還有一個 80 億參數模型可用,可以在消費級 GPU 上本地運行。該模型在各種綜合基準測試中擊敗了 Google 的 Gemma 和 Mistral 7B。該模型尚未在 LLM Arena 中列出,因此目前還沒有主觀 ELO 分數可報告。
這兩種模型都可以以較低的成本在雲實例中運行。
Meta 表示:“我們致力於以負責任的方式開發 Llama 3,並且提供各種資源來幫助其他人也能負責任地使用它。”這包括引入新的信任和安全工具,例如 Llama Guard 2、Code Shield 和 CyberSec Eval 2。
Meta 表示,未來幾個月內,它計劃推出新功能、更長的上下文窗口、更多模型大小和增強的性能。Llama 3 研究論文也將分享。
Meta 表示:“基於 Llama 3 技術構建的 Meta AI 現在是全球領先的人工智能助手之一,它可以提高你的智能並減輕你的負擔,幫助你學習、完成任務、創造內容和建立聯繫,讓你充分利用每一刻。”
Meta 補充說,它還在訓練一個擁有 4000 億個參數的龐大模型,預計將於今年晚些時候發佈。這個模型——可能與 Claude Opus 或最新版本的 GPT-4.5 相媲美——可能是迄今為止最強大的開源模型。如果歷史重演,它還將成為新一代微調模型的基礎,這些模型將在整體質量上超越 Llama-3——並將加強與領先的閉源模型的競爭。
Decrypt在 Meta AI 內部測試了 Llama-3,看看它是否如扎克所說的那樣好。簡而言之,Llama-3 引入了許多值得注意的特性和能力,應該是一個很棒的基礎模型,開源社區可以在此基礎上進行迭代。
內容審核
Llama-3 表現出對內容審核的強烈承諾。即使面對常見的越獄技術,它始終拒絕生成有害的種族內容。
例如,當模型被問及如何勾引女人時,它給出了通用但有用的回答。然而,當被問及如何勾引好朋友的妻子時,模型堅決拒絕提供答案。
圖像和動畫
與 ChatGPT-Plus 類似,Meta AI 和 Llama-3 也能夠生成圖像。然而,它更進一步提供了動畫選項,這是 ChatGPT 或Gemini所不具備的功能。
Meta AI 使用 Llama-3 生成的圖像比 Dalle-3 生成的圖像更加逼真,但它們比不上谷歌即將推出的 ImageFX 生成的圖像的質量。
編碼能力
事實證明,Llama-3 非常擅長編碼。當提出一個獨特且解釋不清的遊戲創意時,該模型能夠在兩次嘗試中生成必要的 Python 代碼,從而製作出一款功能齊全的遊戲。第一次嘗試讓我們大致瞭解如何創建遊戲,但在我們明確說明需要使用 Python 編寫代碼後,它便創建了可用的代碼。
遊戲功能齊全,但缺少一些小細節,比如玩家獲勝後重新開始。不過,其他聊天機器人也有同樣的問題。
我們發現 Claude 3 Sonnet 是完成這項任務的最佳工具,其次是 Llama 3。GPT-4 排在第三位。但是,不同的用戶可能會得到不同的結果。
這裡有一個pastebin ,其中包含由 Llama3、Claude 和 ChatGPT 生成的源代碼,供有興趣測試它們的人使用。
政治中立
該模型力求政治中立,從其對資本主義和共產主義問題的回答中可見一斑。回答結構相似,對每種制度都進行了介紹,並列舉了其優缺點。
這種中立模式在我們回答“什麼是男人?”和“什麼是女人?”等問題時也觀察到了。
不過,它的回應略微偏向資本主義和左傾,這並不奇怪,因為這是大型語言模型中最常見的政治傾向。
邏輯推理
Llama-3 展現出了強大的邏輯推理能力,在面對經常讓用戶感到困惑的複雜 LSAT 問題時,該模型不僅給出了正確答案,還給出了清晰合理的解釋。
長期提示限制
儘管 Llama-3 有很多優點,但它在處理長提示時卻遇到了困難。當呈現大約一頁半內容的長提示時(可以被 GPT-4、Claude 或 Mistral 等模型吸收),該模型會返回一條錯誤消息。
語言理解
該模型表現出對不同語言的強大理解力。當被要求翻譯西班牙語口號時,它不僅提供了準確的翻譯,還提供了背景信息以便更好地理解該口號。
作為聊天機器人界面,Meta AI(由 Llama3 提供支持)可以與 ChatGPT Plus 競爭,並且總體來說是一個不錯的選擇。
從更技術層面來看,LLama3 作為 LLM 足以在不同場景中與 GPT-4 競爭,僅在 token 上下文功能和檢索增強生成(基本上是從用戶提供的特定數據集中提取信息)方面落後。這對於精通技術的用戶來說可能很重要,但對於普通人來說可能不是什麼大問題。
如果您主要使用 ChatGPT 通過 Dall-E 生成圖像,您可能需要考慮取消訂閱,因為 Llama-3 的圖像和動畫生成功能是相當的。但是,如果您還需要支持長提示,Llama-3 可能不是您的最佳選擇,您可能需要考慮繼續使用 ChatGPT-Plus。
偶爾使用的用戶可能會發現 Llama-3 可以滿足他們的需求,而且不需要付費會員資格。
對於需要大量互聯網研究的任務,ChatGPT Plus 或 Perplexity 可能更適合。
最後,如果你專注於編碼,Llama-3 可能是一個不錯的選擇,儘管還有其他專用工具可用。Llama-3 是免費的,這是一個顯著的優勢。
由Ryan Ozawa編輯。





