Databricks 有一個技巧可以讓 AI 模型自我改進

avatar
WIRED
03-25
本文為機器翻譯
展示原文

Databricks 是一家幫助大企業構建定製人工智能模型的公司,它開發了一種機器學習技巧,無需乾淨的標籤數據即可提高人工智能模型的性能。

Databricks 首席人工智能科學家喬納森·弗蘭克爾 (Jonathan Frankle) 在過去一年中一直在與客戶討論他們在讓人工智能可靠運行時面臨的主要挑戰。

弗蘭克爾說,問題在於髒數據。

“每個人都有一些數據,並且知道自己想要做什麼,”弗蘭克爾說。但是,缺乏乾淨的數據使得微調模型以執行特定任務變得具有挑戰性。“沒有人能拿出好的、乾淨的微調數據,讓你可以將其粘貼到提示或[應用程序編程接口]中,”用於模型。

Databricks 的模型最終可以讓公司部署自己的代理來執行任務,而不會受到數據質量的阻礙。

這項技術讓我們有機會一窺工程師們目前用來提高高級人工智能模型能力的一些關鍵技巧,尤其是在難以獲得良好數據的情況下。該方法利用了有助於產生高級推理模型的理念,將強化學習(一種通過實踐提高人工智能模型的方法)與“合成”或人工智能生成的訓練數據相結合。

OpenAIGoogleDeepSeek的最新模型都嚴重依賴強化學習以及合成訓練數據。WIRED 透露, Nvidia 計劃收購專門從事合成數據的公司 Gretel 。“我們都在這個領域探索,”Frankle 說。

Databricks 方法利用了這樣一個事實:只要嘗試足夠多,即使是一個弱模型也能在給定的任務或基準上取得好成績。研究人員將這種提升模型性能的方法稱為“N 中最佳”。Databricks 訓練了一個模型,根據示例預測人類測試人員會更喜歡哪個 N 中最佳結果。然後可以使用 Databricks 獎勵模型 (DBRM) 來提高其他模型的性能,而無需進一步標記數據。

然後使用 DBRM 從給定模型中選擇最佳輸出。這會創建合成訓練數據,以進一步微調模型,使其第一次就產生更好的輸出。Databricks 將其新方法稱為測試時自適應優化或 TAO。“我們討論的這種方法使用了一些相對輕量級的強化學習,基本上將 best-of-N 的好處融入到模型本身中,”Frankle 說。

他補充說,Databricks 的研究表明,隨著 TAO 方法擴展到更大、更強大的模型,其性能會得到改善。強化學習和合成數據已經得到廣泛應用,但將它們結合起來以改進語言模型是一種相對較新且技術難度較大的技術。

Databricks 對其開發 AI 的方式異常開放,因為它想向客戶展示它擁有為他們創建強大自定義模型所需的技能。該公司之前向《連線》雜誌透露了它如何從零開始開發 DBX,這是一種尖端的開源大型語言模型 (LLM)

如果沒有標記良好、精心整理的數據,就很難對 LLM 進行微調,使其更有效地完成特定任務,例如分析財務報告或健康記錄以發現模式或發現問題。現在,許多公司希望使用 LLM 通過所謂的代理自動執行任務。

例如,金融領域使用的代理可能會分析公司的關鍵績效,然後生成報告並自動將其發送給不同的分析師。醫療保險領域使用的代理可能會幫助引導客戶找到相關藥物或疾病的信息。

Databricks 在 FinanceBench 上測試了 TAO 方法,FinanceBench 是一個測試語言模型如何回答金融問題的基準。在這個基準上,Meta 最小的免費 AI 模型 Llama 3.1B 得分為 68.4%,而 OpenAI 專有的 GPT-4o 和 o3-mini 模型得分為 82.1%。使用 TAO 技術,Databricks 讓 Llama 3.1B 在 FinanceBench 上的得分達到 82.8%,超過了 OpenAI 的模型。

“這個總體思路很有前景,”研究強化學習的東北大學計算機科學家克里斯托弗·阿馬託 (Christopher Amato) 表示。“我完全同意缺乏良好的訓練數據是一個大問題。”

Amato 表示,許多公司現在正在尋找使用合成數據和強化學習來訓練 AI 模型的方法。TAO 方法“非常有前景,因為它可以實現更具可擴展性的數據標記,甚至隨著時間的推移,隨著模型越來越強大,標記越來越好,性能也會越來越好,”他說。

然而,阿馬託補充說,強化學習有時會表現得不可預測,這意味著需要謹慎使用它。

Frankle 表示,DataBricks 正在使用 TAO 技術來提升客戶 AI 模型的性能,並幫助他們構建第一批代理。一位開發健康追蹤應用程序的客戶發現,TAO 方法使其能夠部署之前不夠可靠的 AI 模型。“你希望 [應用程序] 在醫學上準確,”他說。“這是一個棘手的問題。”

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
1
評論
Followin logo