一家西班牙人工智能初创公司刚刚说服投资者投入2.15亿美元,基于一个大胆的声明:他们可以将大型语言模型压缩95%,同时不影响其性能。
Multiverse Computing的创新依赖于其CompactifAI技术,这是一种借鉴量子物理数学概念来将人工智能模型缩小到智能手机尺寸的压缩方法。
这家圣塞巴斯蒂安公司表示,他们压缩后的Llama-2 7B模型在推理时运行速度提高25%,同时使用的参数减少70%,准确性仅下降2-3%。
如果在大规模验证,这可以解决人工智能的大象级问题:模型如此庞大,以至于需要专门的数据中心才能运行。
"在历史上首次,我们能够剖析神经网络的内部工作原理,消除数十亿个虚假关联,真正优化各种人工智能模型,"Multiverse的首席科学官Román Orús在周四的博客文章中说道。
Bullhound Capital领投了这2.15亿美元的B轮融资,并获得惠普科技风投和东芝的支持。
应用量子启发的概念来解决人工智能最紧迫的问题听起来不太可能——但如果研究成果成立,这将是真实的。
与传统压缩仅仅是切除神经元或降低数值精度不同,CompactifAI使用张量网络——物理学家开发的数学结构,用于跟踪粒子相互作用而不被数据淹没。
这个过程就像是人工智能模型的折纸:权重矩阵被折叠成更小的、相互连接的矩阵乘积算子。
系统不是存储神经元之间的每个连接,而是仅保留有意义的关联,同时丢弃重复的模式,如反复出现的信息或关系。
Multiverse发现人工智能模型并非均匀可压缩。早期层证明脆弱,而最近表明对性能不太关键的深层可以承受激进压缩。
这种选择性方法使他们能在其他方法失败的地方实现戏剧性的规模缩减。
压缩后,模型经过简短的"修复"——由于参数数量减少,重新训练只需不到一个轮次。公司声称这个恢复过程比训练原始模型快50%,因为GPU-CPU传输负载减少。
长话短说——根据公司自己的说法——你从一个模型开始,运行Compactify魔法,最终得到一个参数不到50%的压缩版本,可以以两倍的推理速度运行,成本大大降低,且与原始模型一样强大。
在其研究中,团队展示了可以将Llama-2 7B模型的内存需求减少93%,参数数量减少70%,训练速度提高50%,回答(推理)速度提高25%——同时仅损失2-3%的准确性。
传统的缩小方法,如量化(降低精度,如使用较少的小数位)、剪枝(完全切除不太重要的神经元,如修剪树上的枯枝)或蒸馏技术(训练一个较小的模型模仿更大模型的行为),甚至接近不了这些数字。
Multiverse已为包括博世和加拿大银行在内的100多个客户提供服务,将其量子启发算法应用于人工智能之外的能源优化和金融建模。
西班牙政府在3月共同投资了6700万欧元,使总融资额超过2.5亿美元。
目前通过AWS提供Llama和Mistral等开源模型的压缩版本,公司计划扩展到DeepSeek R1和其他推理模型。
OpenAI或Claude的专有系统显然仍然是禁区,因为它们不可用于修改或研究。
该技术的前景不仅仅是成本节省。惠普科技风投的参与表明对边缘人工智能部署的兴趣——在本地而非云服务器上运行复杂模型。
"Multiverse的创新方法有潜力为任何规模的公司带来增强性能、个性化、隐私和成本效率的人工智能优势,"惠普技术和创新总裁Tuan Tran说。
所以,如果你将来某天在智能手机上运行DeepSeek R1,这些家伙可能就是你要感谢的人。
编辑:Josh Quittner和Sebastian Sinclair





