Hugging Face正式推出Kernels,GPU算子像模型一样一行代码装好
ME News 消息,4 月 15 日(UTC+8),据 1M AI News 监测,Hugging Face CEO Clem Delangue 宣布 Kernels 正式上线 Hub。GPU 算子是让显卡跑出极限速度的底层优化代码,能将推理和训练加速 1.7 至 2.5 倍,但安装一直是噩梦:以最常用的 FlashAttention 为例,本地编译需要约 96GB 内存和数小时,PyTorch 版本、CUDA 版本稍有不对就报错,多数开发者在安装这一步就卡住了。 Kernels Hub 把编译搬到云端。Hugging Face 提前在各种显卡和系统环境下编译好算子,开发者写一行代码,Hub 自动匹配硬件环境,几秒内下载预编译文件直接可用。同一进程可加载多个不同版本算子,兼容 torch.compile。 Kernels 去年 6 月测试上线,本月升级为 Hub 一级仓库类型,与 Models、Datasets、Spaces 并列。目前已有 61 个预编译算子,覆盖注意力机制、归一化、混合专家路由、量化等常用场景,支持英伟达 CUDA、AMD ROCm、苹果 Metal 和英特尔 XPU 四种硬件加速平台,已集成进 Hugging Face 的推理框架 TGI 和 Transformers 库。 (来源:ME)
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享




