Meta 推出 Llama-3 — 我們對新的頂級開源 AI 模型進行測試

04-20

本文為機器翻譯

展示原文

Meta 發佈了 Llama 3，這是目前最先進的開源大型語言模型。它建立在其前身 Llama 2 的基礎之上，考慮到有傳言稱該模型將於下個月發佈，這著實令人意外。

憑藉其開源根基，Llama-2 在其他強大模型（如Mixtral 、Alpaca、Vicuna 和 WizardLM）的並行開發中發揮了重要作用。現在，Llama-3 有望進一步提升這些能力，提供與 OpenAI 目前的旗艦 AI 模型 GPT-4 相當的功能。

Meta將週四發佈的版本譽為“我們最先進的開源大型語言模型的下一代”。這家科技巨頭對自己的能力充滿信心，Llama 3 為Meta AI提供支持，而 Meta AI 又被添加到該公司幾乎所有廣受歡迎的應用程序中：Instagram、Facebook 和 WhatsApp。它已在部分國家/地區推出，但其他地區的用戶可以通過 VPN 訪問它。

Meta AI 的 Chatbot 界面與 ChatGPT Plus 相當——而且是免費的。

馬克·扎克伯格在 Facebook 帖子中表示：“我們正在使用我們最新的 Llama 3 AI 模型對 Meta AI 進行升級，我們正在開源該模型。有了這個新模型，我們相信 Meta AI 現在是最智能的 AI 助手，你可以自由使用。”

Decrypt測試了這款新 AI，發現它無需付費訂閱，就能像 ChatGPT-Plus 一樣強大。它可以生成圖像和動畫、生成代碼，並提供連貫、與上下文相關的響應。這款新聊天機器人還可以訪問互聯網，但它仍然無法與 Perplexity 等專業解決方案相媲美。

也許唯一的缺點是 Llama-3 當前的上下文窗口僅限於 8K 個標記（大約 6,000 個單詞）。

Meta 確實發佈了一個 700 億參數的 Llama-3 模型，但使用它需要強大的計算能力——可能需要一整架 GPU。根據綜合基準測試，該模型擊敗了Gemini 1.5 Pro 和 Claude 3 Sonnet。

還有一個 80 億參數模型可用，可以在消費級 GPU 上本地運行。該模型在各種綜合基準測試中擊敗了 Google 的 Gemma 和 Mistral 7B。該模型尚未在 LLM Arena 中列出，因此目前還沒有主觀 ELO 分數可報告。

這兩種模型都可以以較低的成本在雲實例中運行。

Meta 表示：“我們致力於以負責任的方式開發 Llama 3，並且提供各種資源來幫助其他人也能負責任地使用它。”這包括引入新的信任和安全工具，例如 Llama Guard 2、Code Shield 和 CyberSec Eval 2。

Meta 表示，未來幾個月內，它計劃推出新功能、更長的上下文窗口、更多模型大小和增強的性能。Llama 3 研究論文也將分享。

Meta 表示：“基於 Llama 3 技術構建的 Meta AI 現在是全球領先的人工智能助手之一，它可以提高你的智能並減輕你的負擔，幫助你學習、完成任務、創造內容和建立聯繫，讓你充分利用每一刻。”

Meta 補充說，它還在訓練一個擁有 4000 億個參數的龐大模型，預計將於今年晚些時候發佈。這個模型——可能與 Claude Opus 或最新版本的 GPT-4.5 相媲美——可能是迄今為止最強大的開源模型。如果歷史重演，它還將成為新一代微調模型的基礎，這些模型將在整體質量上超越 Llama-3——並將加強與領先的閉源模型的競爭。

Decrypt在 Meta AI 內部測試了 Llama-3，看看它是否如扎克所說的那樣好。簡而言之，Llama-3 引入了許多值得注意的特性和能力，應該是一個很棒的基礎模型，開源社區可以在此基礎上進行迭代。

內容審核

Llama-3 表現出對內容審核的強烈承諾。即使面對常見的越獄技術，它始終拒絕生成有害的種族內容。

例如，當模型被問及如何勾引女人時，它給出了通用但有用的回答。然而，當被問及如何勾引好朋友的妻子時，模型堅決拒絕提供答案。

圖像和動畫

與 ChatGPT-Plus 類似，Meta AI 和 Llama-3 也能夠生成圖像。然而，它更進一步提供了動畫選項，這是 ChatGPT 或Gemini所不具備的功能。

Meta AI 使用 Llama-3 生成的圖像比 Dalle-3 生成的圖像更加逼真，但它們比不上谷歌即將推出的 ImageFX 生成的圖像的質量。

編碼能力

事實證明，Llama-3 非常擅長編碼。當提出一個獨特且解釋不清的遊戲創意時，該模型能夠在兩次嘗試中生成必要的 Python 代碼，從而製作出一款功能齊全的遊戲。第一次嘗試讓我們大致瞭解如何創建遊戲，但在我們明確說明需要使用 Python 編寫代碼後，它便創建了可用的代碼。

遊戲功能齊全，但缺少一些小細節，比如玩家獲勝後重新開始。不過，其他聊天機器人也有同樣的問題。

我們發現 Claude 3 Sonnet 是完成這項任務的最佳工具，其次是 Llama 3。GPT-4 排在第三位。但是，不同的用戶可能會得到不同的結果。

這裡有一個pastebin ，其中包含由 Llama3、Claude 和 ChatGPT 生成的源代碼，供有興趣測試它們的人使用。

政治中立

該模型力求政治中立，從其對資本主義和共產主義問題的回答中可見一斑。回答結構相似，對每種制度都進行了介紹，並列舉了其優缺點。

這種中立模式在我們回答“什麼是男人？”和“什麼是女人？”等問題時也觀察到了。

不過，它的回應略微偏向資本主義和左傾，這並不奇怪，因為這是大型語言模型中最常見的政治傾向。

邏輯推理

Llama-3 展現出了強大的邏輯推理能力，在面對經常讓用戶感到困惑的複雜 LSAT 問題時，該模型不僅給出了正確答案，還給出了清晰合理的解釋。

長期提示限制

儘管 Llama-3 有很多優點，但它在處理長提示時卻遇到了困難。當呈現大約一頁半內容的長提示時（可以被 GPT-4、Claude 或 Mistral 等模型吸收），該模型會返回一條錯誤消息。

語言理解

該模型表現出對不同語言的強大理解力。當被要求翻譯西班牙語口號時，它不僅提供了準確的翻譯，還提供了背景信息以便更好地理解該口號。

作為聊天機器人界面，Meta AI（由 Llama3 提供支持）可以與 ChatGPT Plus 競爭，並且總體來說是一個不錯的選擇。

從更技術層面來看，LLama3 作為 LLM 足以在不同場景中與 GPT-4 競爭，僅在 token 上下文功能和檢索增強生成（基本上是從用戶提供的特定數據集中提取信息）方面落後。這對於精通技術的用戶來說可能很重要，但對於普通人來說可能不是什麼大問題。

如果您主要使用 ChatGPT 通過 Dall-E 生成圖像，您可能需要考慮取消訂閱，因為 Llama-3 的圖像和動畫生成功能是相當的。但是，如果您還需要支持長提示，Llama-3 可能不是您的最佳選擇，您可能需要考慮繼續使用 ChatGPT-Plus。

偶爾使用的用戶可能會發現 Llama-3 可以滿足他們的需求，而且不需要付費會員資格。

對於需要大量互聯網研究的任務，ChatGPT Plus 或 Perplexity 可能更適合。

最後，如果你專注於編碼，Llama-3 可能是一個不錯的選擇，儘管還有其他專用工具可用。Llama-3 是免費的，這是一個顯著的優勢。

由Ryan Ozawa編輯。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論