微软推出 Phi-3 系列精巧语言模型

avatar
AI News
04-24
本文为机器翻译
展示原文

微软宣布推出Phi-3 系列开放小语言模型 (SLM),并宣称它们是现有规模中功能最强大、最具成本效益的模型。微软研究人员开发的创新训练方法使 Phi-3 模型在语言、编码和数学基准方面优于更大的模型。

「我们将开始看到的不是从大到小的转变,而是从单一类别模型向模型组合的转变,客户能够决定最适合他们的模型。场景,」微软生成人工智慧首席产品经理 Sonali Yadav 说。

第一款 Phi-3 型号 Phi-3-mini 拥有 38 亿个参数,现已在Azure AI 模型目录Hugging FaceOllama中公开提供,并作为NVIDIA NIM微服务提供。尽管尺寸紧凑,Phi-3-mini 的性能优于两倍尺寸的型号。其他 Phi-3 型号,如 Phi-3-small(7B 参数)和 Phi-3-medium(14B 参数)即将推出。

phi-3-mini:3.8B 型号,搭配 Mixtral 8x7B 和 GPT-3.5

加上在许多基准测试中与 Llama 3 8B 相符的 7B 型号。

加上14B型号。 https://t.co/2h0xahzUUS pic.twitter.com/XaED6mJL1V

— 米拉 (@_Mira___Mira_) 2024 年 4 月 23 日

微软人工智慧副总裁 Luis Vargas 表示:“有些客户可能只需要小型模型,有些客户需要大型模型,而许多客户则希望以各种方式将两者结合起来。”

SLM 的主要优势是尺寸较小,无需网路连线即可在装置上部署低延迟 AI 体验。潜在的用例包括智慧感测器、摄影机、农业设备等。将资料保存在设备上的另一个好处是隐私。

(图片来源:微软)

大型语言模型 (LLM) 擅长对海量资料集进行复杂推理,透过理解科学文献中的交互作用,适合药物发现等应用。然而,SLM 为更简单的查询答案、摘要、内容产生等提供了令人信服的替代方案。

Iris.ai首席技术长兼联合创始人 Victor Botev 评论道:“微软并没有追求更大的模型,而是开发具有更精心策划的数据和专门培训的工具。”

「这可以提高性能和推理能力,而无需花费数万亿参数的模型的大量计算成本。实现这一承诺意味著为寻求人工智慧解决方案的企业消除巨大的采用障碍。

突破训练技术

Microsoft SLM 品质飞跃的推动者是受睡前故事书启发的创新数据过滤和生成方法。

“与其仅使用原始网路数据进行训练,为什么不寻找极高品质的数据?”负责 SLM 研究的 Microsoft 副总裁 Sebastien Bubeck 问道。

Ronen Eldan 每天晚上与女儿一起阅读的习惯激发了他的想法,即通过用 4 岁孩子会知道的单词组合提示一个大型模型来生成包含数百万个简单叙述的“TinyStories”数据集。值得注意的是,在 TinyStories 上训练的 10M 参数模型可以产生具有完美语法的流畅故事。

在早期成功的基础上,团队采购了经过教育价值审查的高品质网路数据,以建立「CodeTextbook」数据集。这是透过人类和大型人工智慧模型的多轮提示、生成和过滤来合成的。

「产生这些合成数据需要花费很多心思,」布贝克说。 “我们不会拿走我们生产的所有东西。”

事实证明,高品质的训练资料具有变革性。 「因为它是从类似教科书的材料中读取的……你可以使语言模型的阅读和理解这些材料的任务变得更加容易,」布贝克解释道。

降低人工智慧安全风险

尽管资料管理经过深思熟虑,微软仍然强调在 Phi-3 版本中应用额外的安全实践,以反映其所有生成式 AI 模型的标准流程。

「与所有生成式 AI 模型版本一样,微软的产品和负责的 AI 团队使用多层方法来管理和降低开发 Phi-3 模型的风险,」一篇部落格文章指出。

这包括进一步的培训范例以强化预期行为、透过红队进行评估以识别漏洞,以及为客户提供 Azure AI 工具以在 Phi-3 上建立值得信赖的应用程式。

塔达斯·萨尔摄)

另请参阅: 微软将与韩国科技领导者建立人工智慧合作关系

想向产业领导者了解更多关于人工智慧和大数据的知识吗?查看在阿姆斯特丹、加州和伦敦举办的人工智慧与大数据博览会。该综合活动与BlockX数位转型周网路安全与云端博览会等其他领先活动同期举行。

在此探索由 TechForge 提供支援的其他即将举行的企业技术活动和网路研讨会。

微软推出 Phi-3 系列紧凑语言模型的贴文首先出现在AI News上。

相关赛道:
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
10
收藏
2
评论