Ai2 OLMo 2:提高開放語言模型的標準

avatar
AI News
11-28
本文為機器翻譯
展示原文

Ai2釋出了OLMo 2,這是一系列開源語言模型,推動了人工智慧的民主化,縮小了開源和專有解決方案之間的差距。

新的模型有7B和13B引數版本,訓練於多達5萬億個令牌,在英語學術基準測試中的效能水平與或超過可比的完全開源模型,同時仍然與開源權重模型(如Llama 3.1)具有競爭力。

"自從2024年2月首次釋出OLMo以來,我們看到了開源語言模型生態系統的快速增長,以及開源和專有模型之間效能差距的縮小,"Ai2解釋道。

該開發團隊通過幾項創新實現了這些改進,包括增強的訓練穩定性措施、分階段的訓練方法,以及從他們的Tülu 3框架派生的最先進的訓練後方法。值得注意的技術改進包括從非引數層歸一化切換到RMSNorm,以及實施旋轉位置嵌入。

OLMo 2模型訓練突破

訓練過程採用了複雜的兩階段方法。初始階段利用了約3.9萬億個令牌的OLMo-Mix-1124資料集,該資料集來自DCLM、Dolma、Starcoder和Proof Pile II。第二階段透過Dolmino-Mix-1124資料集,融合了高質量的網路資料和特定領域的內容。

值得特別注意的是OLMo 2-Instruct-13B變體,這是該系列中最強大的模型。該模型在各種基準測試中的效能優於Qwen 2.5 14B指令、Tülu 3 8B和Llama 3.1 8B指令模型。

將OLMo 2開放大型語言模型與Mistral、Qwn、Llama、Gemma等其他模型進行基準測試的對比。
(來源:Ai2)

致力於開放科學

為了強化對開放科學的承諾,Ai2釋出了全面的文件,包括權重、資料、程式碼、配方、中間檢查點和指令調整模型。這種透明度允許人工智慧社群全面檢查和複製結果。

該釋出還引入了一個名為OLMES(開放語言建模評估系統)的評估框架,包括20個基準,旨在評估知識回憶、常識推理和數學推理等核心能力。

OLMo 2提高了開源人工智慧開發的標準,可能會加快該領域創新的步伐,同時保持透明度和可訪問性。

(照片由Rick Barrett拍攝)

另見:OpenAI透過新的紅隊方法增強人工智慧安全性

想從行業領導者那裡瞭解更多關於人工智慧和大資料的知識嗎?檢視在阿姆斯特丹、加利福尼亞和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先的活動如Intelligent Automation ConferenceBlockXDigital Transformation WeekCyber Security & Cloud Expo同時舉辦。

在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會events

本文最初發表於AI News

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
評論