Hugging Face正式推出Kernels,GPU算子像模型一樣一行代碼裝好

ME News 消息,4 月 15 日(UTC+8),據 1M AI News 監測,Hugging Face CEO Clem Delangue 宣佈 Kernels 正式上線 Hub。GPU 算子是讓顯卡跑出極限速度的底層優化代碼,能將推理和訓練加速 1.7 至 2.5 倍,但安裝一直是噩夢:以最常用的 FlashAttention 為例,本地編譯需要約 96GB 內存和數小時,PyTorch 版本、CUDA 版本稍有不對就報錯,多數開發者在安裝這一步就卡住了。 Kernels Hub 把編譯搬到雲端。Hugging Face 提前在各種顯卡和系統環境下編譯好算子,開發者寫一行代碼,Hub 自動匹配硬件環境,幾秒內下載預編譯文件直接可用。同一進程可加載多個不同版本算子,兼容 torch.compile。 Kernels 去年 6 月測試上線,本月升級為 Hub 一級倉庫類型,與 Models、Datasets、Spaces 並列。目前已有 61 個預編譯算子,覆蓋注意力機制、歸一化、混合專家路由、量化等常用場景,支持英偉達 CUDA、AMD ROCm、蘋果 Metal 和英特爾 XPU 四種硬件加速平臺,已集成進 Hugging Face 的推理框架 TGI 和 Transformers 庫。 (來源:ME)

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論