Meta 推出 Llama-3 — 我们对新的顶级开源 AI 模型进行测试

本文为机器翻译
展示原文

Meta 发布了 Llama 3,这是目前最先进的开源大型语言模型。它建立在其前身 Llama 2 的基础之上,考虑到有传言称该模型将于下个月发布,这着实令人意外。

凭借其开源根基,Llama-2 在其他强大模型(如Mixtral 、Alpaca、Vicuna 和 WizardLM)的并行开发中发挥了重要作用。现在,Llama-3 有望进一步提升这些能力,提供与 OpenAI 目前的旗舰 AI 模型 GPT-4 相当的功能。

Meta将周四发布的版本誉为“我们最先进的开源大型语言模型的下一代”。这家科技巨头对自己的能力充满信心,Llama 3 为Meta AI提供支持,而 Meta AI 又被添加到该公司几乎所有广受欢迎的应用程序中:Instagram、Facebook 和 WhatsApp。它已在部分国家/地区推出,但其他地区的用户可以通过 VPN 访问它。

Meta AI 的 Chatbot 界面与 ChatGPT Plus 相当——而且是免费的。

马克·扎克伯格在 Facebook 帖子中表示:“我们正在使用我们最新的 Llama 3 AI 模型对 Meta AI 进行升级,我们正在开源该模型。有了这个新模型,我们相信 Meta AI 现在是最智能的 AI 助手,你可以自由使用。”

Decrypt测试了这款新 AI,发现它无需付费订阅,就能像 ChatGPT-Plus 一样强大。它可以生成图像和动画、生成代码,并提供连贯、与上下文相关的响应。这款新聊天机器人还可以访问互联网,但它仍然无法与 Perplexity 等专业解决方案相媲美。

也许唯一的缺点是 Llama-3 当前的上下文窗口仅限于 8K 个标记(大约 6,000 个单词)。

Meta 确实发布了一个 700 亿参数的 Llama-3 模型,但使用它需要强大的计算能力——可能需要一整架 GPU。根据综合基准测试,该模型击败了Gemini 1.5 Pro 和 Claude 3 Sonnet。

还有一个 80 亿参数模型可用,可以在消费级 GPU 上本地运行。该模型在各种综合基准测试中击败了 Google 的 Gemma 和 Mistral 7B。该模型尚未在 LLM Arena 中列出,因此目前还没有主观 ELO 分数可报告。

这两种模型都可以以较低的成本在云实例中运行。

Meta 表示:“我们致力于以负责任的方式开发 Llama 3,并且提供各种资源来帮助其他人也能负责任地使用它。”这包括引入新的信任和安全工具,例如 Llama Guard 2、Code Shield 和 Cyber​​Sec Eval 2。

Meta 表示,未来几个月内,它计划推出新功能、更长的上下文窗口、更多模型大小和增强的性能。Llama 3 研究论文也将分享。

Meta 表示:“基于 Llama 3 技术构建的 Meta AI 现在是全球领先的人工智能助手之一,它可以提高你的智能并减轻你的负担,帮助你学习、完成任务、创造内容和建立联系,让你充分利用每一刻。”

Meta 补充说,它还在训练一个拥有 4000 亿个参数的庞大模型,预计将于今年晚些时候发布。这个模型——可能与 Claude Opus 或最新版本的 GPT-4.5 相媲美——可能是迄今为止最强大的开源模型。如果历史重演,它还将成为新一代微调模型的基础,这些模型将在整体质量上超越 Llama-3——并将加强与领先的闭源模型的竞争。

Decrypt在 Meta AI 内部测试了 Llama-3,看看它是否如扎克所说的那样好。简而言之,Llama-3 引入了许多值得注意的特性和能力,应该是一个很棒的基础模型,开源社区可以在此基础上进行迭代。

内容审核

Llama-3 表现出对内容审核的强烈承诺。即使面对常见的越狱技术,它始终拒绝生成有害的种族内容。

例如,当模型被问及如何勾引女人时,它给出了通用但有用的回答。然而,当被问及如何勾引好朋友的妻子时,模型坚决拒绝提供答案。

图像和动画

与 ChatGPT-Plus 类似,Meta AI 和 Llama-3 也能够生成图像。然而,它更进一步提供了动画选项,这是 ChatGPT 或Gemini所不具备的功能。

Meta AI 使用 Llama-3 生成的图像比 Dalle-3 生成的图像更加逼真,但它们比不上谷歌即将推出的 ImageFX 生成的图像的质量。

编码能力

事实证明,Llama-3 非常擅长编码。当提出一个独特且解释不清的游戏创意时,该模型能够在两次尝试中生成必要的 Python 代码,从而制作出一款功能齐全的游戏。第一次尝试让我们大致了解如何创建游戏,但在我们明确说明需要使用 Python 编写代码后,它便创建了可用的代码。

游戏功能齐全,但缺少一些小细节,比如玩家获胜后重新开始。不过,其他聊天机器人也有同样的问题。

我们发现 Claude 3 Sonnet 是完成这项任务的最佳工具,其次是 Llama 3。GPT-4 排在第三位。但是,不同的用户可能会得到不同的结果。

这里有一个pastebin ,其中包含由 Llama3、Claude 和 ChatGPT 生成的源代码,供有兴趣测试它们的人使用。

政治中立

该模型力求政治中立,从其对资本主义和共产主义问题的回答中可见一斑。回答结构相似,对每种制度都进行了介绍,并列举了其优缺点。

这种中立模式在我们回答“什么是男人?”和“什么是女人?”等问题时也观察到了。

不过,它的回应略微偏向资本主义和左倾,这并不奇怪,因为这是大型语言模型中最常见的政治倾向

逻辑推理

Llama-3 展现出了强大的逻辑推理能力,在面对经常让用户感到困惑的复杂 LSAT 问题时,该模型不仅给出了正确答案,还给出了清晰合理的解释。

长期提示限制

尽管 Llama-3 有很多优点,但它在处理长提示时却遇到了困难。当呈现大约一页半内容的长提示时(可以被 GPT-4、Claude 或 Mistral 等模型吸收),该模型会返回一条错误消息。

语言理解

该模型表现出对不同语言的强大理解力。当被要求翻译西班牙语口号时,它不仅提供了准确的翻译,还提供了背景信息以便更好地理解该口号。

作为聊天机器人界面,Meta AI(由 Llama3 提供支持)可以与 ChatGPT Plus 竞争,并且总体来说是一个不错的选择。

从更技术层面来看,LLama3 作为 LLM 足以在不同场景中与 GPT-4 竞争,仅在 token 上下文功能和检索增强生成(基本上是从用户提供的特定数据集中提取信息)方面落后。这对于精通技术的用户来说可能很重要,但对于普通人来说可能不是什么大问题。

如果您主要使用 ChatGPT 通过 Dall-E 生成图像,您可能需要考虑取消订阅,因为 Llama-3 的图像和动画生成功能是相当的。但是,如果您还需要支持长提示,Llama-3 可能不是您的最佳选择,您可能需要考虑继续使用 ChatGPT-Plus。

偶尔使用的用户可能会发现 Llama-3 可以满足他们的需求,而且不需要付费会员资格。

对于需要大量互联网研究的任务,ChatGPT Plus 或 Perplexity 可能更适合。

最后,如果你专注于编码,Llama-3 可能是一个不错的选择,尽管还有其他专用工具可用。Llama-3 是免费的,这是一个显著的优势。

Ryan Ozawa编辑。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论