Meta 推出 Llama-3 — 我们对新的顶级开源 AI 模型进行测试

04-20

本文为机器翻译

展示原文

Meta 发布了 Llama 3，这是目前最先进的开源大型语言模型。它建立在其前身 Llama 2 的基础之上，考虑到有传言称该模型将于下个月发布，这着实令人意外。

凭借其开源根基，Llama-2 在其他强大模型（如Mixtral 、Alpaca、Vicuna 和 WizardLM）的并行开发中发挥了重要作用。现在，Llama-3 有望进一步提升这些能力，提供与 OpenAI 目前的旗舰 AI 模型 GPT-4 相当的功能。

Meta将周四发布的版本誉为“我们最先进的开源大型语言模型的下一代”。这家科技巨头对自己的能力充满信心，Llama 3 为Meta AI提供支持，而 Meta AI 又被添加到该公司几乎所有广受欢迎的应用程序中：Instagram、Facebook 和 WhatsApp。它已在部分国家/地区推出，但其他地区的用户可以通过 VPN 访问它。

Meta AI 的 Chatbot 界面与 ChatGPT Plus 相当——而且是免费的。

马克·扎克伯格在 Facebook 帖子中表示：“我们正在使用我们最新的 Llama 3 AI 模型对 Meta AI 进行升级，我们正在开源该模型。有了这个新模型，我们相信 Meta AI 现在是最智能的 AI 助手，你可以自由使用。”

Decrypt测试了这款新 AI，发现它无需付费订阅，就能像 ChatGPT-Plus 一样强大。它可以生成图像和动画、生成代码，并提供连贯、与上下文相关的响应。这款新聊天机器人还可以访问互联网，但它仍然无法与 Perplexity 等专业解决方案相媲美。

也许唯一的缺点是 Llama-3 当前的上下文窗口仅限于 8K 个标记（大约 6,000 个单词）。

Meta 确实发布了一个 700 亿参数的 Llama-3 模型，但使用它需要强大的计算能力——可能需要一整架 GPU。根据综合基准测试，该模型击败了Gemini 1.5 Pro 和 Claude 3 Sonnet。

还有一个 80 亿参数模型可用，可以在消费级 GPU 上本地运行。该模型在各种综合基准测试中击败了 Google 的 Gemma 和 Mistral 7B。该模型尚未在 LLM Arena 中列出，因此目前还没有主观 ELO 分数可报告。

这两种模型都可以以较低的成本在云实例中运行。

Meta 表示：“我们致力于以负责任的方式开发 Llama 3，并且提供各种资源来帮助其他人也能负责任地使用它。”这包括引入新的信任和安全工具，例如 Llama Guard 2、Code Shield 和 CyberSec Eval 2。

Meta 表示，未来几个月内，它计划推出新功能、更长的上下文窗口、更多模型大小和增强的性能。Llama 3 研究论文也将分享。

Meta 表示：“基于 Llama 3 技术构建的 Meta AI 现在是全球领先的人工智能助手之一，它可以提高你的智能并减轻你的负担，帮助你学习、完成任务、创造内容和建立联系，让你充分利用每一刻。”

Meta 补充说，它还在训练一个拥有 4000 亿个参数的庞大模型，预计将于今年晚些时候发布。这个模型——可能与 Claude Opus 或最新版本的 GPT-4.5 相媲美——可能是迄今为止最强大的开源模型。如果历史重演，它还将成为新一代微调模型的基础，这些模型将在整体质量上超越 Llama-3——并将加强与领先的闭源模型的竞争。

Decrypt在 Meta AI 内部测试了 Llama-3，看看它是否如扎克所说的那样好。简而言之，Llama-3 引入了许多值得注意的特性和能力，应该是一个很棒的基础模型，开源社区可以在此基础上进行迭代。

内容审核

Llama-3 表现出对内容审核的强烈承诺。即使面对常见的越狱技术，它始终拒绝生成有害的种族内容。

例如，当模型被问及如何勾引女人时，它给出了通用但有用的回答。然而，当被问及如何勾引好朋友的妻子时，模型坚决拒绝提供答案。

图像和动画

与 ChatGPT-Plus 类似，Meta AI 和 Llama-3 也能够生成图像。然而，它更进一步提供了动画选项，这是 ChatGPT 或Gemini所不具备的功能。

Meta AI 使用 Llama-3 生成的图像比 Dalle-3 生成的图像更加逼真，但它们比不上谷歌即将推出的 ImageFX 生成的图像的质量。

编码能力

事实证明，Llama-3 非常擅长编码。当提出一个独特且解释不清的游戏创意时，该模型能够在两次尝试中生成必要的 Python 代码，从而制作出一款功能齐全的游戏。第一次尝试让我们大致了解如何创建游戏，但在我们明确说明需要使用 Python 编写代码后，它便创建了可用的代码。

游戏功能齐全，但缺少一些小细节，比如玩家获胜后重新开始。不过，其他聊天机器人也有同样的问题。

我们发现 Claude 3 Sonnet 是完成这项任务的最佳工具，其次是 Llama 3。GPT-4 排在第三位。但是，不同的用户可能会得到不同的结果。

这里有一个pastebin ，其中包含由 Llama3、Claude 和 ChatGPT 生成的源代码，供有兴趣测试它们的人使用。

政治中立

该模型力求政治中立，从其对资本主义和共产主义问题的回答中可见一斑。回答结构相似，对每种制度都进行了介绍，并列举了其优缺点。

这种中立模式在我们回答“什么是男人？”和“什么是女人？”等问题时也观察到了。

不过，它的回应略微偏向资本主义和左倾，这并不奇怪，因为这是大型语言模型中最常见的政治倾向。

逻辑推理

Llama-3 展现出了强大的逻辑推理能力，在面对经常让用户感到困惑的复杂 LSAT 问题时，该模型不仅给出了正确答案，还给出了清晰合理的解释。

长期提示限制

尽管 Llama-3 有很多优点，但它在处理长提示时却遇到了困难。当呈现大约一页半内容的长提示时（可以被 GPT-4、Claude 或 Mistral 等模型吸收），该模型会返回一条错误消息。

语言理解

该模型表现出对不同语言的强大理解力。当被要求翻译西班牙语口号时，它不仅提供了准确的翻译，还提供了背景信息以便更好地理解该口号。

作为聊天机器人界面，Meta AI（由 Llama3 提供支持）可以与 ChatGPT Plus 竞争，并且总体来说是一个不错的选择。

从更技术层面来看，LLama3 作为 LLM 足以在不同场景中与 GPT-4 竞争，仅在 token 上下文功能和检索增强生成（基本上是从用户提供的特定数据集中提取信息）方面落后。这对于精通技术的用户来说可能很重要，但对于普通人来说可能不是什么大问题。

如果您主要使用 ChatGPT 通过 Dall-E 生成图像，您可能需要考虑取消订阅，因为 Llama-3 的图像和动画生成功能是相当的。但是，如果您还需要支持长提示，Llama-3 可能不是您的最佳选择，您可能需要考虑继续使用 ChatGPT-Plus。

偶尔使用的用户可能会发现 Llama-3 可以满足他们的需求，而且不需要付费会员资格。

对于需要大量互联网研究的任务，ChatGPT Plus 或 Perplexity 可能更适合。

最后，如果你专注于编码，Llama-3 可能是一个不错的选择，尽管还有其他专用工具可用。Llama-3 是免费的，这是一个显著的优势。

由Ryan Ozawa编辑。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢