Hugging Face chính thức ra mắt Kernels, nơi các toán tử GPU có thể được cài đặt chỉ với một dòng mã, giống như một mô hình.

Bài viết này được dịch máy

Xem bản gốc

Theo ME News, vào ngày 15 tháng 4 (UTC+8), 1M AI News đưa tin rằng CEO của Hugging Face, Clem Delangue, đã ra mắt Kernels trên Hub. Các toán tử GPU là mã được tối ưu hóa cấp thấp cho phép card đồ họa hoạt động ở tốc độ tối đa, tăng tốc quá trình suy luận và huấn luyện từ 1,7 đến 2,5 lần. Tuy nhiên, việc cài đặt luôn là một cơn ác mộng: lấy FlashAttention được sử dụng phổ biến nhất làm ví dụ, việc biên dịch cục bộ yêu cầu khoảng 96GB bộ nhớ và vài giờ; sự không tương thích nhỏ với các phiên bản PyTorch hoặc CUDA có thể dẫn đến lỗi, khiến hầu hết các nhà phát triển bị mắc kẹt ở bước này. Kernels Hub chuyển quá trình biên dịch lên đám mây. Hugging Face biên dịch trước các toán tử cho nhiều card đồ họa và hoàn cảnh hệ thống khác nhau. Các nhà phát triển chỉ cần viết một dòng mã, và Hub sẽ tự động khớp với hoàn cảnh phần cứng, tải xuống các tệp đã biên dịch trước trong vài giây để sử dụng ngay lập tức. Nhiều phiên bản toán tử khác nhau có thể được tải trong cùng một tiến trình, tương thích với torch.compile. Kernels ra mắt thử nghiệm vào tháng 6 năm ngoái và tháng này nâng cấp lên loại kho lưu trữ cấp một trên Hub, cùng với Models, Datasets và Spaces. Hiện tại, có 61 toán tử được biên dịch sẵn bao gồm các kịch bản phổ biến như cơ chế chú ý, chuẩn hóa, định tuyến chuyên gia lai và lượng tử hóa. Nó hỗ trợ bốn nền tảng tăng tốc phần cứng: NVIDIA CUDA, AMD ROCm, Apple Metal và Intel XPU, và đã được tích hợp vào khung suy luận TGI và thư viện Transformers của Hugging Face. (Nguồn: ME)

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan