Vào ngày 17 tháng 3, nhà phát hành stablecoin Tether thông báo rằng nền tảng AI QVAC Fabric của họ đã ra mắt khung tinh chỉnh LoRA đa nền tảng đầu tiên trên thế giới dành cho Microsoft BitNet (LLM 1-bit), cho phép huấn luyện và suy luận các mô hình ngôn ngữ tỷ tham số trên phần cứng thông thường, bao gồm máy tính xách tay, GPU tiêu dùng và điện thoại thông minh.
Thông báo chính thức cho biết khung phần mềm này giúp giảm đáng kể ngưỡng bộ nhớ GPU và tỷ lệ băm cần thiết cho việc huấn luyện mô hình AI, đồng thời hỗ trợ Intel, AMD, Apple Silicon và nhiều GPU di động khác nhau (như Adreno, Mali và Apple Bionic).
Trong quá trình thử nghiệm, một mô hình BitNet với khoảng 125 triệu tham số có thể được tinh chỉnh trong khoảng 10 phút trên Samsung S25; một mô hình với 1 tỷ tham số mất khoảng 1 giờ 18 phút trên Samsung S25 và khoảng 1 giờ 45 phút trên iPhone 16. Đội ngũ thậm chí còn tinh chỉnh thành công một mô hình với 13 tỷ tham số trên iPhone 16.
Về hiệu năng, các mô hình BitNet có thể đạt tốc độ suy luận nhanh hơn từ 2 đến 11 lần trên GPU di động so với CPU. Đồng thời, các thử nghiệm cho thấy BitNet-1B có thể giảm mức sử dụng bộ nhớ GPU lên đến 77,8% so với các mô hình 16-bit trong nhiệm vụ suy luận và tinh chỉnh.
Paolo Ardoino tuyên bố rằng công nghệ này nhằm mục đích giảm sự phụ thuộc vào điện toán đám mây quy mô lớn và phần cứng AI chuyên dụng, cho phép hoàn thành việc huấn luyện mô hình AI trên các thiết bị cục bộ và đặt nền tảng cho các mô hình mới như AI phi tập trung và học tập liên kết.





