对于开源人工智能来说,这是美好的一周。
周三,Meta 宣布升级其最先进的大型语言模型 Llama 3.2,它不仅能说话,还能看东西。
更有趣的是,有些版本可以挤进你的智能手机而不会损失质量,这意味着你可以进行私人本地 AI 交互、应用程序和定制,而无需将数据发送到第三方服务器。
Llama 3.2 于周三在Meta Connec t 上亮相,共有四种版本,每种版本都各有特色。重量级竞争者——11B和90B参数型号——展示了其强大的文本和图像处理能力。
它们可以处理复杂的任务,例如分析图表、为图像添加字幕,甚至根据自然语言描述精确定位图片中的物体。
Llama 3.2 与艾伦研究所的 Molmo 在同一周推出,后者声称自己是综合基准测试中最好的开源多模态视觉 LLM,在我们的测试中表现与 GPT-4o、Claude 3.5 Sonnet 和 Reka Core 相当。
扎克伯格的公司还推出了两个新的轻量级模型:一对1B和3B参数模型,专为效率、速度以及有限但重复且不需要太多计算的任务而设计。
这些小型模型是多语言文本大师,擅长“工具调用”,这意味着它们可以更好地与编程工具集成。尽管它们体积小巧,但它们拥有令人印象深刻的 128K 令牌上下文窗口(与 GPT4o 和其他强大的模型相同),使其成为设备上摘要、指令跟踪和重写任务的理想选择。
Meta 的工程团队进行了一些严肃的数字操作,以实现这一目标。首先,他们使用结构化修剪来从较大的模型中修剪不必要的数据,然后使用知识蒸馏(将知识从大型模型转移到较小的模型)来挤出额外的智能。
最终,这一系列紧凑型模型的表现超越了同重量级别的竞争对手,在各种基准测试中超越了包括谷歌的 Gemma 2 2.6B 和微软的 Phi-2 2.7B 在内的模型。
Meta 也在努力提升设备上的 AI。他们与硬件巨头高通、联发科和 Arm 结成联盟,以确保 Llama 3.2 从第一天起就能与移动芯片完美兼容。云计算巨头也不甘落后——AWS、Google Cloud、Microsoft Azure 和许多其他公司都在其平台上提供对新模型的即时访问。
从底层来看,Llama 3.2 的视觉能力源自巧妙的架构调整。Meta 的工程师将适配器权重嵌入到现有的语言模型中,在预训练的图像编码器和文本处理核心之间架起了一座桥梁。
换句话说,该模型的视觉能力不会以牺牲其文本处理能力为代价,因此与 Llama 3.1 相比,用户可以期待类似或更好的文本结果。
Llama 3.2 版本是开源的——至少按照 Meta 的标准是这样。Meta 正在通过Llama.com和Hugging Face以及其广泛的合作伙伴生态系统提供模型下载。
有兴趣在云端运行它的人可以使用自己的 Google Collab Notebook 或使用Groq进行基于文本的交互,在不到 3 秒的时间内生成近 5000 个令牌。
我们对 Llama 3.2 进行了全面测试,快速测试了其在各种任务中的功能。
在基于文本的交互中,该模型的表现与其前代模型相当。然而,其编码能力却产生了好坏参半的结果。
在 Groq 平台上测试时,Llama 3.2 成功生成了流行游戏和简单程序的代码。然而,当要求较小的 70B 型号为我们设计的自定义游戏创建功能代码时,它却失败了。然而,功能更强大的 90B 效率更高,第一次尝试就生成了功能齐全的游戏。
点击此链接,您可以查看 Llama-3.2 生成的完整代码以及我们测试的所有其他模型。
Llama 3.2 擅长识别图像中的主观元素。当向模型展示一张未来主义的赛博朋克风格图像并询问它是否符合蒸汽朋克美学时,模型准确地识别出了这种风格及其元素。它给出了令人满意的解释,指出由于缺乏与该流派相关的关键元素,该图像与蒸汽朋克不符。
图表分析是 Llama 3.2 的另一个强项,不过它需要高分辨率图像才能发挥最佳性能。当我们输入包含图表的屏幕截图时(其他模型(如 Molmo 或 Reka)可以解读图表),Llama 的视觉能力就会下降。模型道歉,解释说由于图像质量问题,它无法正确读取字母。
虽然 Llama 3.2 在图表中处理小文本时遇到了困难,但在阅读较大图像中的文本时却表现完美。我们向它展示了一个介绍一个人的演示幻灯片,模型成功地理解了上下文,毫无错误地区分了姓名和职位。
总体而言,Llama 3.2 比上一代有了很大的改进,是开源 AI 行业的一大补充。它的优势在于图像解释和大文本识别,但也有一些可以改进的地方,特别是在处理低质量图像和处理复杂的自定义编码任务方面。
设备兼容性的承诺也有利于私人和本地 AI 任务的未来,并且是对Gemini Nano 和 Apple 专有模型等产品的有力平衡。





