Tether推出面向智能手机的Bitnet AI框架，减少对英伟达GPU的需求

03-17

本文为机器翻译

展示原文

Tether 的目标是打破大型科技公司在人工智慧硬体领域的壁垒，它推出了一套框架，旨在将数十亿参数的模型训练缩小到手机可以处理的程度。

Tether AI框架将显存使用量降低70%以上，并扩展了边缘运算能力。

周二， Tether发布了适用于微软 Bitnet 模型的跨平台 LoRA 微调框架，并推出了据称是第一个能够在包括智慧型手机和笔记型电脑在内的消费级设备上训练和运行 1 位元大型语言模型的系统。

这个版本是 Tether 的 QVAC Fabric 堆叠的一部分，旨在降低人工智慧开发通常伴随的大量运算和记忆体需求，而这些需求在很大程度上局限于云端供应商和高端 Nvidia 硬体。

透过支援异质硬体（包括英特尔、AMD 和苹果的晶片以及行动 GPU），该框架允许开发人员在本地微调模型，而无需依赖集中式基础设施。

实际上，这意味著曾经只能在资料中心运行的 AI 工作负载现在可以在背包或口袋里的设备上运行，这种转变可以降低成本，并扩大美国乃至全球开发人员的存取权限。

Tether表示，其工程师已成功展示了 Bitnet 在行动 GPU（包括 Adreno、Mali 和 Apple Bionic 晶片）上的微调，这标志著新兴的 1 位元模型架构首次实现微调。

该公司发布的性能基准测试表明，在三星 S25 设备上，一个 1.25 亿参数的模型可以在大约 10 分钟内完成微调，而一个 10 亿参数的模型在相同的硬体上完成相同的任务大约需要 1 小时 18 分钟。

该公司报告称，在苹果设备上也取得了类似的结果，在 iPhone 16 上，一个 10 亿参数的模型在大约 1 小时 45 分钟内进行了微调，实验运行将模型在设备上的参数推高至 130 亿。

根据 Tether 的内部基准测试，该框架在推理速度方面也取得了可衡量的提升，而行动 GPU 的效能是 CPU 的 2 到 11 倍。

记忆体效率是另一个关键卖点，Bitnet-1B 使用的 VRAM 比同类 16 位元型号少 77.8%，比其他广泛使用的架构少 65% 以上，从而使更大的型号能够在有限的硬体上运行。

Tether表示，该系统还首次实现了在非英伟达硬体上对 LoRA 进行微调，此举可以减少对专用晶片和云端服务的依赖，同时将敏感资料储存在用户设备本地。

该公司补充说，这种方法可以让联邦学习更加实用，因为它允许在分散式设备上训练模型而无需集中数据，这是以隐私为中心的 AI 开发领域日益关注的一个方面。

Tether执行长 Paolo Ardoino 在声明中表示：「透过在包括智慧型手机在内的消费级硬体上实现有意义的大型模型训练，Tether 的 QVAC 正在证明，先进的人工智慧可以去中心化、包容性强，并能为每个人赋能。」他还补充说，该公司计划继续投资于设备端人工智慧基础设施。

技术版本（包括基准测试和实作细节）已透过 Hugging Face 发布，这表明该公司正努力直接与开发者沟通，而不是将技术限制在专有系统之后。

Tether 的全新 AI 框架是什么？
Tether 的 QVAC Fabric 引入了一个跨平台系统，用于在手机和笔记型电脑等消费级设备上训练和运行 Bitnet AI 模型。
智慧型手机真的能训练人工智慧模型吗？
是的，Tether 的基准测试表明，在三星 S25 和 iPhone 16 等设备上，可以在几个小时内对数十亿参数模型进行微调。
为什么这对美国开发者来说很重要？
它减少了对昂贵的云端基础设施和专用GPU的依赖，从而降低了成本，并增加了人工智慧开发的机会。
Bitnet 与其他型号有何不同？
BitNet 采用 1 位元架构，与传统的 16 位元模型相比，显著降低了记忆体使用量并提高了效率。