Hugging Face正式推出Kernels，GPU算子像模型一樣一行代碼裝好

ME News 消息，4 月 15 日（UTC+8），據 1M AI News 監測，Hugging Face CEO Clem Delangue 宣佈 Kernels 正式上線 Hub。GPU 算子是讓顯卡跑出極限速度的底層優化代碼，能將推理和訓練加速 1.7 至 2.5 倍，但安裝一直是噩夢：以最常用的 FlashAttention 為例，本地編譯需要約 96GB 內存和數小時，PyTorch 版本、CUDA 版本稍有不對就報錯，多數開發者在安裝這一步就卡住了。 Kernels Hub 把編譯搬到雲端。Hugging Face 提前在各種顯卡和系統環境下編譯好算子，開發者寫一行代碼，Hub 自動匹配硬件環境，幾秒內下載預編譯文件直接可用。同一進程可加載多個不同版本算子，兼容 torch.compile。 Kernels 去年 6 月測試上線，本月升級為 Hub 一級倉庫類型，與 Models、Datasets、Spaces 並列。目前已有 61 個預編譯算子，覆蓋注意力機制、歸一化、混合專家路由、量化等常用場景，支持英偉達 CUDA、AMD ROCm、蘋果 Metal 和英特爾 XPU 四種硬件加速平臺，已集成進 Hugging Face 的推理框架 TGI 和 Transformers 庫。（來源：ME）

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論