Ai2釋出了OLMo 2,這是一系列開源語言模型,推動了人工智慧的民主化,縮小了開源和專有解決方案之間的差距。
新的模型有7B和13B引數版本,訓練於多達5萬億個令牌,在英語學術基準測試中的效能水平與或超過可比的完全開源模型,同時仍然與開源權重模型(如Llama 3.1)具有競爭力。
"自從2024年2月首次釋出OLMo以來,我們看到了開源語言模型生態系統的快速增長,以及開源和專有模型之間效能差距的縮小,"Ai2解釋道。
該開發團隊通過幾項創新實現了這些改進,包括增強的訓練穩定性措施、分階段的訓練方法,以及從他們的Tülu 3框架派生的最先進的訓練後方法。值得注意的技術改進包括從非引數層歸一化切換到RMSNorm,以及實施旋轉位置嵌入。
OLMo 2模型訓練突破
訓練過程採用了複雜的兩階段方法。初始階段利用了約3.9萬億個令牌的OLMo-Mix-1124資料集,該資料集來自DCLM、Dolma、Starcoder和Proof Pile II。第二階段透過Dolmino-Mix-1124資料集,融合了高質量的網路資料和特定領域的內容。
值得特別注意的是OLMo 2-Instruct-13B變體,這是該系列中最強大的模型。該模型在各種基準測試中的效能優於Qwen 2.5 14B指令、Tülu 3 8B和Llama 3.1 8B指令模型。
致力於開放科學
為了強化對開放科學的承諾,Ai2釋出了全面的文件,包括權重、資料、程式碼、配方、中間檢查點和指令調整模型。這種透明度允許人工智慧社群全面檢查和複製結果。
該釋出還引入了一個名為OLMES(開放語言建模評估系統)的評估框架,包括20個基準,旨在評估知識回憶、常識推理和數學推理等核心能力。
OLMo 2提高了開源人工智慧開發的標準,可能會加快該領域創新的步伐,同時保持透明度和可訪問性。
(照片由Rick Barrett拍攝)
想從行業領導者那裡瞭解更多關於人工智慧和大資料的知識嗎?檢視在阿姆斯特丹、加利福尼亞和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先的活動如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同時舉辦。
在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會events。
本文最初發表於AI News。