杰罗姆·佩森蒂 (Jerome Pesenti) 有几个理由庆祝 Meta 上周决定发布 Llama 3 ,这是一个强大的开源大型语言模型,任何人都可以下载、运行和构建。
佩森蒂曾担任Meta的人工智能副总裁,他说他经常敦促公司考虑将其技术发布给其他人使用和开发。但他高兴的主要原因是,他的新创业公司将获得一个人工智能模型,他说这个模型的功能非常接近OpenAI 业界领先的文本生成器 GPT-4 ,但运行成本要低得多,而且更容易接受外部审查和修改。
“上周五发布的版本确实让人感觉像是改变了游戏规则,”佩森蒂说。他的新公司Sizzle是一家人工智能导师,目前使用 GPT-4 和其他人工智能模型(包括封闭式和开放式)为学生设计作业集和课程。他的工程师正在评估 Llama 3 是否可以在许多情况下取代 OpenAI 的模型。
Sizzle 的故事可能预示着人工智能力量平衡将发生更广泛的转变。OpenAI 用 ChatGPT 改变了世界,掀起了人工智能投资浪潮,吸引了 200 多万开发人员使用其云 API。但如果开源模型证明具有竞争力,开发人员和企业家可能会决定停止付费使用 OpenAI 或谷歌的最新模型,转而使用 Llama 3 或其他日益强大的开源模型。
佩森蒂在谈到 Llama 3 等开放模型与 GPT-4 和谷歌的Gemini等封闭模型之间的竞争时表示:“这将是一场有趣的赛马。”
Meta 的上一个模型 Llama 2 已经颇具影响力,但该公司表示,通过向其提供大量高质量的训练数据,并开发新技术来过滤掉冗余或混乱的内容并选择最佳的数据集组合,它使最新版本更加强大。
Pesenti 表示,在Fireworks.ai等云平台上运行 Llama 3 的成本仅为通过 API 访问 GPT-4 成本的二十分之一。他补充说,Llama 3 可以配置为极快地响应查询,这对于像他这样的公司依赖于利用来自不同提供商的模型的开发人员来说是一个关键考虑因素。“这是延迟、成本和准确性之间的等式,”他说。
开放模型似乎正在以惊人的速度下降。几周前,我走进初创公司 Databricks ,见证了构建 DBRX 的最后阶段,这是一个语言模型,曾一度成为最好的开放模型。现在,这个桂冠属于 Llama 3。Databricks 首席执行官 Ali Ghodsi 也将 Llama 3 描述为“改变游戏规则的”,并表示更大的模型“正在接近 GPT 4 的质量——这为开源和闭源 LLM 创造了公平的竞争环境。”
Llama 3 还展示了缩小 AI 模型的潜力,这样它们就可以在性能较弱的硬件上运行。Meta 发布了其最新模型的两个版本,一个版本有 700 亿个参数(衡量它从训练数据中学习的变量的数量),另一个版本有 80 亿个参数。较小的模型足够紧凑,可以在笔记本电脑上运行,但性能非常出色,至少在《连线》杂志的测试中是如此。
在 Meta 发布前两天,由 Pesenti 在 Meta 团队的校友创立的法国 AI 公司Mistral开源了Mixtral 8x22B。它有 1410 亿个参数,但每次只使用其中的 390 亿个参数,这种设计被称为专家混合。得益于这一技巧,该模型比一些大得多的模型功能强大得多。
Meta 并不是唯一一家发布开源 AI 的科技巨头。本周,微软发布了Phi-3-mini ,苹果发布了OpenELM ,这是两个可以在智能手机上运行的小型但功能强大的免费语言模型。
未来几个月将会证明 Llama 3 和其他开放模型是否真的能够取代 GPT-4 等高端 AI 模型,供一些开发人员使用。更强大的开源 AI 即将问世。该公司正在开发一个拥有 4000 亿个参数的 Llama 3 版本,首席 AI 科学家Yann LeCun表示,该版本应该是世界上最强大的版本之一。
当然,所有这些开放并非纯粹出于利他主义。Meta 首席执行官马克·扎克伯格表示,开放其 AI 模型最终应该会给公司带来好处,因为它可以降低所依赖技术的成本,例如通过产生 Meta 可以自己使用的兼容工具和服务。他没有说,阻止 OpenAI、微软或谷歌主导该领域也可能对 Meta 有利。




