Hugging Face는 GPU 오퍼레이터를 모델처럼 단 한 줄의 코드로 설치할 수 있는 Kernels를 공식 출시했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

ME 뉴스에 따르면, 4월 15일(UTC+8) 1M AI 뉴스는 Hugging Face CEO 클렘 델랑그(Clem Delangue)가 Kernels Hub의 공식 출시를 발표했다고 보도했습니다. GPU 오퍼레이터는 그래픽 카드가 최대 속도로 작동하도록 최적화된 저수준 코드로, 추론 및 학습 속도를 1.7배에서 2.5배까지 향상시킵니다. 하지만 설치 과정은 항상 어려웠습니다. 가장 널리 사용되는 FlashAttention을 예로 들면, 로컬 컴파일에 약 96GB의 메모리가 필요하고 몇 시간이 소요됩니다. 또한 PyTorch 또는 CUDA 버전과의 사소한 호환성 문제로 오류가 발생하여 대부분의 개발자가 이 단계에서 어려움을 겪었습니다. Kernels Hub는 컴파일 프로세스를 클라우드로 옮깁니다. Hugging Face는 다양한 그래픽 카드와 시스템 환경에 맞춰 오퍼레이터를 미리 컴파일합니다. 개발자는 단 한 줄의 코드만 작성하면 Hub가 자동으로 하드웨어 환경을 감지하여 몇 초 만에 미리 컴파일된 파일을 다운로드하고 즉시 사용할 수 있습니다. torch.compile과 호환되어 동일한 프로세스에서 여러 버전의 오퍼레이터를 로드할 수 있습니다. Kernels는 작년 6월 테스트용으로 출시되었으며, 이번 달에는 모델, 데이터셋, 스페이스와 함께 Hub의 최상위 저장소 유형으로 업그레이드되었습니다. 현재 어텐션 메커니즘, 정규화, 하이브리드 전문가 라우팅, 양자화와 같은 일반적인 시나리오를 다루는 61개의 사전 컴파일된 연산자가 있습니다. NVIDIA CUDA, AMD ROCm, Apple Metal, Intel XPU의 네 가지 하드웨어 가속 플랫폼을 지원하며, Hugging Face의 추론 프레임 TGI 및 Transformers 라이브러리에 통합되었습니다. (출처: ME)

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트