DeepSeek發佈梁文鋒署名新論文:提出mHC新架構提升大模型訓練穩定性

PANews 1月1日消息,據金十報道,DeepSeek發佈新論文,提出了一種名為流形約束超連接(mHC)的新架構,旨在解決超連接網絡(HC)技術因破壞恆等映射特性而導致的訓練不穩定和可擴展性受限等問題。該架構通過將HC的殘差連接空間映射至特定流形以恢復恆等映射特性,同時結合嚴格的基礎設施優化以確保效率,實現了顯著的性能改進和優越的可擴展性。DeepSeek預計,mHC作為HC的一種靈活實用拓展,將有助於更深入地理解拓撲架構設計,併為基座模型的演進指明有前景的方向。該論文由Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao共同擔任第一作者,梁文鋒也在作者名單之中。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
56
收藏
16
評論