Databricks 是一家帮助大企业构建定制人工智能模型的公司,它开发了一种机器学习技巧,无需干净的标签数据即可提高人工智能模型的性能。
Databricks 首席人工智能科学家乔纳森·弗兰克尔 (Jonathan Frankle) 在过去一年中一直在与客户讨论他们在让人工智能可靠运行时面临的主要挑战。
弗兰克尔说,问题在于脏数据。
“每个人都有一些数据,并且知道自己想要做什么,”弗兰克尔说。但是,缺乏干净的数据使得微调模型以执行特定任务变得具有挑战性。“没有人能拿出好的、干净的微调数据,让你可以将其粘贴到提示或[应用程序编程接口]中,”用于模型。
Databricks 的模型最终可以让公司部署自己的代理来执行任务,而不会受到数据质量的阻碍。
这项技术让我们有机会一窥工程师们目前用来提高高级人工智能模型能力的一些关键技巧,尤其是在难以获得良好数据的情况下。该方法利用了有助于产生高级推理模型的理念,将强化学习(一种通过实践提高人工智能模型的方法)与“合成”或人工智能生成的训练数据相结合。
OpenAI 、 Google和DeepSeek的最新模型都严重依赖强化学习以及合成训练数据。WIRED 透露, Nvidia 计划收购专门从事合成数据的公司 Gretel 。“我们都在这个领域探索,”Frankle 说。
Databricks 方法利用了这样一个事实:只要尝试足够多,即使是一个弱模型也能在给定的任务或基准上取得好成绩。研究人员将这种提升模型性能的方法称为“N 中最佳”。Databricks 训练了一个模型,根据示例预测人类测试人员会更喜欢哪个 N 中最佳结果。然后可以使用 Databricks 奖励模型 (DBRM) 来提高其他模型的性能,而无需进一步标记数据。
然后使用 DBRM 从给定模型中选择最佳输出。这会创建合成训练数据,以进一步微调模型,使其第一次就产生更好的输出。Databricks 将其新方法称为测试时自适应优化或 TAO。“我们讨论的这种方法使用了一些相对轻量级的强化学习,基本上将 best-of-N 的好处融入到模型本身中,”Frankle 说。
他补充说,Databricks 的研究表明,随着 TAO 方法扩展到更大、更强大的模型,其性能会得到改善。强化学习和合成数据已经得到广泛应用,但将它们结合起来以改进语言模型是一种相对较新且技术难度较大的技术。
Databricks 对其开发 AI 的方式异常开放,因为它想向客户展示它拥有为他们创建强大自定义模型所需的技能。该公司之前向《连线》杂志透露了它如何从零开始开发 DBX,这是一种尖端的开源大型语言模型 (LLM) 。
如果没有标记良好、精心整理的数据,就很难对 LLM 进行微调,使其更有效地完成特定任务,例如分析财务报告或健康记录以发现模式或发现问题。现在,许多公司希望使用 LLM 通过所谓的代理自动执行任务。
例如,金融领域使用的代理可能会分析公司的关键绩效,然后生成报告并自动将其发送给不同的分析师。医疗保险领域使用的代理可能会帮助引导客户找到相关药物或疾病的信息。
Databricks 在 FinanceBench 上测试了 TAO 方法,FinanceBench 是一个测试语言模型如何回答金融问题的基准。在这个基准上,Meta 最小的免费 AI 模型 Llama 3.1B 得分为 68.4%,而 OpenAI 专有的 GPT-4o 和 o3-mini 模型得分为 82.1%。使用 TAO 技术,Databricks 让 Llama 3.1B 在 FinanceBench 上的得分达到 82.8%,超过了 OpenAI 的模型。
“这个总体思路很有前景,”研究强化学习的东北大学计算机科学家克里斯托弗·阿马托 (Christopher Amato) 表示。“我完全同意缺乏良好的训练数据是一个大问题。”
Amato 表示,许多公司现在正在寻找使用合成数据和强化学习来训练 AI 模型的方法。TAO 方法“非常有前景,因为它可以实现更具可扩展性的数据标记,甚至随着时间的推移,随着模型越来越强大,标记越来越好,性能也会越来越好,”他说。
然而,阿马托补充说,强化学习有时会表现得不可预测,这意味着需要谨慎使用它。
Frankle 表示,DataBricks 正在使用 TAO 技术来提升客户 AI 模型的性能,并帮助他们构建第一批代理。一位开发健康追踪应用程序的客户发现,TAO 方法使其能够部署之前不够可靠的 AI 模型。“你希望 [应用程序] 在医学上准确,”他说。“这是一个棘手的问题。”