Meta 发布了 Llama 3,这是目前最先进的开源大型语言模型。它建立在其前身 Llama 2 的基础之上,考虑到有传言称该模型将于下个月发布,这着实令人意外。
凭借其开源根基,Llama-2 在其他强大模型(如Mixtral 、Alpaca、Vicuna 和 WizardLM)的并行开发中发挥了重要作用。现在,Llama-3 有望进一步提升这些能力,提供与 OpenAI 目前的旗舰 AI 模型 GPT-4 相当的功能。
Meta将周四发布的版本誉为“我们最先进的开源大型语言模型的下一代”。这家科技巨头对自己的能力充满信心,Llama 3 为Meta AI提供支持,而 Meta AI 又被添加到该公司几乎所有广受欢迎的应用程序中:Instagram、Facebook 和 WhatsApp。它已在部分国家/地区推出,但其他地区的用户可以通过 VPN 访问它。
Meta AI 的 Chatbot 界面与 ChatGPT Plus 相当——而且是免费的。
马克·扎克伯格在 Facebook 帖子中表示:“我们正在使用我们最新的 Llama 3 AI 模型对 Meta AI 进行升级,我们正在开源该模型。有了这个新模型,我们相信 Meta AI 现在是最智能的 AI 助手,你可以自由使用。”
Decrypt测试了这款新 AI,发现它无需付费订阅,就能像 ChatGPT-Plus 一样强大。它可以生成图像和动画、生成代码,并提供连贯、与上下文相关的响应。这款新聊天机器人还可以访问互联网,但它仍然无法与 Perplexity 等专业解决方案相媲美。
也许唯一的缺点是 Llama-3 当前的上下文窗口仅限于 8K 个标记(大约 6,000 个单词)。
Meta 确实发布了一个 700 亿参数的 Llama-3 模型,但使用它需要强大的计算能力——可能需要一整架 GPU。根据综合基准测试,该模型击败了Gemini 1.5 Pro 和 Claude 3 Sonnet。
还有一个 80 亿参数模型可用,可以在消费级 GPU 上本地运行。该模型在各种综合基准测试中击败了 Google 的 Gemma 和 Mistral 7B。该模型尚未在 LLM Arena 中列出,因此目前还没有主观 ELO 分数可报告。
这两种模型都可以以较低的成本在云实例中运行。
Meta 表示:“我们致力于以负责任的方式开发 Llama 3,并且提供各种资源来帮助其他人也能负责任地使用它。”这包括引入新的信任和安全工具,例如 Llama Guard 2、Code Shield 和 CyberSec Eval 2。
Meta 表示,未来几个月内,它计划推出新功能、更长的上下文窗口、更多模型大小和增强的性能。Llama 3 研究论文也将分享。
Meta 表示:“基于 Llama 3 技术构建的 Meta AI 现在是全球领先的人工智能助手之一,它可以提高你的智能并减轻你的负担,帮助你学习、完成任务、创造内容和建立联系,让你充分利用每一刻。”
Meta 补充说,它还在训练一个拥有 4000 亿个参数的庞大模型,预计将于今年晚些时候发布。这个模型——可能与 Claude Opus 或最新版本的 GPT-4.5 相媲美——可能是迄今为止最强大的开源模型。如果历史重演,它还将成为新一代微调模型的基础,这些模型将在整体质量上超越 Llama-3——并将加强与领先的闭源模型的竞争。
Decrypt在 Meta AI 内部测试了 Llama-3,看看它是否如扎克所说的那样好。简而言之,Llama-3 引入了许多值得注意的特性和能力,应该是一个很棒的基础模型,开源社区可以在此基础上进行迭代。
内容审核
Llama-3 表现出对内容审核的强烈承诺。即使面对常见的越狱技术,它始终拒绝生成有害的种族内容。
例如,当模型被问及如何勾引女人时,它给出了通用但有用的回答。然而,当被问及如何勾引好朋友的妻子时,模型坚决拒绝提供答案。
图像和动画
与 ChatGPT-Plus 类似,Meta AI 和 Llama-3 也能够生成图像。然而,它更进一步提供了动画选项,这是 ChatGPT 或Gemini所不具备的功能。
Meta AI 使用 Llama-3 生成的图像比 Dalle-3 生成的图像更加逼真,但它们比不上谷歌即将推出的 ImageFX 生成的图像的质量。
编码能力
事实证明,Llama-3 非常擅长编码。当提出一个独特且解释不清的游戏创意时,该模型能够在两次尝试中生成必要的 Python 代码,从而制作出一款功能齐全的游戏。第一次尝试让我们大致了解如何创建游戏,但在我们明确说明需要使用 Python 编写代码后,它便创建了可用的代码。
游戏功能齐全,但缺少一些小细节,比如玩家获胜后重新开始。不过,其他聊天机器人也有同样的问题。
我们发现 Claude 3 Sonnet 是完成这项任务的最佳工具,其次是 Llama 3。GPT-4 排在第三位。但是,不同的用户可能会得到不同的结果。
这里有一个pastebin ,其中包含由 Llama3、Claude 和 ChatGPT 生成的源代码,供有兴趣测试它们的人使用。
政治中立
该模型力求政治中立,从其对资本主义和共产主义问题的回答中可见一斑。回答结构相似,对每种制度都进行了介绍,并列举了其优缺点。
这种中立模式在我们回答“什么是男人?”和“什么是女人?”等问题时也观察到了。
不过,它的回应略微偏向资本主义和左倾,这并不奇怪,因为这是大型语言模型中最常见的政治倾向。
逻辑推理
Llama-3 展现出了强大的逻辑推理能力,在面对经常让用户感到困惑的复杂 LSAT 问题时,该模型不仅给出了正确答案,还给出了清晰合理的解释。
长期提示限制
尽管 Llama-3 有很多优点,但它在处理长提示时却遇到了困难。当呈现大约一页半内容的长提示时(可以被 GPT-4、Claude 或 Mistral 等模型吸收),该模型会返回一条错误消息。
语言理解
该模型表现出对不同语言的强大理解力。当被要求翻译西班牙语口号时,它不仅提供了准确的翻译,还提供了背景信息以便更好地理解该口号。
作为聊天机器人界面,Meta AI(由 Llama3 提供支持)可以与 ChatGPT Plus 竞争,并且总体来说是一个不错的选择。
从更技术层面来看,LLama3 作为 LLM 足以在不同场景中与 GPT-4 竞争,仅在 token 上下文功能和检索增强生成(基本上是从用户提供的特定数据集中提取信息)方面落后。这对于精通技术的用户来说可能很重要,但对于普通人来说可能不是什么大问题。
如果您主要使用 ChatGPT 通过 Dall-E 生成图像,您可能需要考虑取消订阅,因为 Llama-3 的图像和动画生成功能是相当的。但是,如果您还需要支持长提示,Llama-3 可能不是您的最佳选择,您可能需要考虑继续使用 ChatGPT-Plus。
偶尔使用的用户可能会发现 Llama-3 可以满足他们的需求,而且不需要付费会员资格。
对于需要大量互联网研究的任务,ChatGPT Plus 或 Perplexity 可能更适合。
最后,如果你专注于编码,Llama-3 可能是一个不错的选择,尽管还有其他专用工具可用。Llama-3 是免费的,这是一个显著的优势。
由Ryan Ozawa编辑。