微软开发1位人工智能模型

本文为机器翻译
展示原文

微软新推出的BitNet b1.58 2B4T模型拥有20亿参数,性能远超同等规模的对手,同时显著减少内存使用。

微软的研究人员成功开发出迄今为止最大的1位人工智能模型(也称为"bitnet")。

该名为BitNet b1.58 2B4T的模型已按照MIT许可证发布,能够在普通CPU上运行,包括Apple M2芯片。

轻量级人工智能的革命性突破

Bitnets是经过压缩的人工智能模型,可以在轻量级硬件上运行。与当前标准模型需要大量比特来表示权重不同,bitnets将权重量化为仅三个值:-1、0和1。这使得bitnets比大多数现有模型节省更多内存和计算资源。

BitNet b1.58 2B4T是微软首个拥有20亿参数的bitnet模型。该模型在4万亿代币的海量数据集上进行训练,相当于约3300万本书。根据微软的公开声明,该模型在性能上优于同等规模的传统模型。

在性能测试中,BitNet b1.58 2B4T在多个重要基准测试中超越了Meta的Llama 3.2 1B、谷歌的Gemma 3 1B和阿里巴巴的Qwen 2.5 1.5B,包括GSM8K(小学级别问题集)和PIQA(物理世界推理能力测试)。

特别令人印象深刻的是BitNet b1.58 2B4T的速度,在某些情况下比同等规模的模型快一倍,同时使用的内存仅为对手的一小部分。

然而,要获得最佳性能,BitNet b1.58 2B4T需要使用微软的bitnet.cpp框架,目前仅与某些特定硬件兼容。值得注意的是,这个列表不包括GPU——目前人工智能基础设施中主导的芯片类型。

Bitnets对于资源受限的设备似乎很有前景,但兼容性问题仍是一个重大障碍,并可能在近期继续存在。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论