Một startup AI của Tây Ban Nha vừa thuyết phục các nhà đầu tư chuyển 215 triệu đô la dựa trên một tuyên bố táo bạo: họ có thể thu nhỏ các mô hình ngôn ngữ lớn xuống 95% mà không ảnh hưởng đến hiệu suất của chúng.
Sự đổi mới của Multiverse Computing dựa vào công nghệ CompactifAI, một phương pháp nén sử dụng các khái niệm toán học từ vật lý lượng tử để thu nhỏ các mô hình AI xuống kích thước điện thoại thông minh.
Công ty ở San Sebastian cho biết mô hình Llama-2 7B đã được nén của họ chạy nhanh hơn 25% khi suy luận trong khi sử dụng ít hơn 70% tham số, với độ chính xác giảm chỉ 2-3%.
Nếu được xác nhận ở quy mô lớn, điều này có thể giải quyết vấn đề to lớn của AI: các mô hình quá lớn đến mức chúng yêu cầu các trung tâm dữ liệu chuyên biệt để hoạt động.
"Lần đầu tiên trong lịch sử, chúng tôi có thể phân tích các hoạt động bên trong của mạng nơ-ron để loại bỏ hàng tỷ tương quan giả nhằm tối ưu hóa mọi loại mô hình AI," Román Orús, giám đốc khoa học của Multiverse, cho biết trong một bài đăng trên blog vào thứ Năm.
Bullhound Capital đã dẫn đầu vòng gọi vốn Series B trị giá 215 triệu đô la với sự hỗ trợ từ HP Tech Ventures và Toshiba.
Áp dụng các khái niệm được lấy cảm hứng từ lượng tử để giải quyết một trong những vấn đề cấp bách nhất của AI nghe có vẻ không thể - nhưng nếu nghiên cứu được chứng minh, thì nó là có thật.
Không giống như phương pháp nén truyền thống chỉ cắt giảm nơ-ron hoặc giảm độ chính xác số học, CompactifAI sử dụng các mạng tensor - các cấu trúc toán học mà các nhà vật lý đã phát triển để theo dõi các tương tác hạt mà không bị nhấn chìm trong dữ liệu.
Quá trình này hoạt động như một nghệ thuật gấp giấy origami cho các mô hình AI: các ma trận trọng số được gấp lại thành các cấu trúc nhỏ hơn, được kết nối gọi là Toán tử Sản phẩm Ma trận.
Thay vì lưu trữ mọi kết nối giữa các nơ-ron, hệ thống chỉ bảo toàn các tương quan có ý nghĩa trong khi loại bỏ các mẫu dư thừa, như thông tin hoặc mối quan hệ được lặp đi lặp lại.
Multiverse đã khám phá ra rằng các mô hình AI không thể nén đồng đều. Các lớp ban đầu chứng tỏ là mỏng manh, trong khi các lớp sâu hơn - gần đây được cho là ít quan trọng hơn đối với hiệu suất - có thể chịu được việc nén mạnh mẽ.
Phương pháp chọn lọc này cho phép họ đạt được sự giảm kích thước đáng kể nơi mà các phương pháp khác thất bại.
Sau khi nén, các mô hình trải qua quá trình "chữa lành" ngắn - đào tạo lại mất ít hơn một chu kỳ nhờ số lượng tham số đã giảm. Công ty tuyên bố quá trình phục hồi này chạy nhanh hơn 50% so với đào tạo các mô hình ban đầu do giảm tải chuyển GPU-CPU.
Nói ngắn gọn - theo các đề nghị của chính công ty - bạn bắt đầu với một mô hình, chạy phép thuật Compactify, và kết thúc với một phiên bản được nén có ít hơn 50% tham số, có thể chạy với tốc độ suy luận gấp đôi, chi phí thấp hơn nhiều, và vẫn có năng lực như mô hình ban đầu.
Trong nghiên cứu của mình, nhóm cho thấy bạn có thể giảm nhu cầu bộ nhớ của mô hình Llama-2 7B xuống 93%, cắt giảm số lượng tham số 70%, tăng tốc độ đào tạo 50%, và tăng tốc độ trả lời (suy luận) 25% - đồng thời chỉ mất 2-3% độ chính xác.
Các phương pháp thu nhỏ truyền thống như lượng tử hóa (giảm độ chính xác như sử dụng ít chữ số thập phân hơn), cắt tỉa (loại bỏ hoàn toàn các nơ-ron ít quan trọng, như tỉa các nhánh chết của một cây), hoặc các kỹ thuật chưng cất (đào tạo một mô hình nhỏ hơn để bắt chước hành vi của một mô hình lớn hơn) thậm chí không gần với những con số này.
Multiverse đã phục vụ hơn 100 khách hàng bao gồm Bosch và Ngân hàng Canada, áp dụng các thuật toán được lấy cảm hứng từ lượng tử vào các lĩnh vực ngoài AI như tối ưu hóa năng lượng và mô hình hóa tài chính.
Chính phủ Tây Ban Nha đã đồng đầu tư 67 triệu euro vào tháng 3, đưa tổng số vốn đầu tư vượt quá 250 triệu đô la.
Hiện đang cung cấp các phiên bản nén của các mô hình mã nguồn mở như Llama và Mistral thông qua AWS, công ty có kế hoạch mở rộng sang DeepSeek R1 và các mô hình suy luận khác.
Các hệ thống độc quyền từ OpenAI hoặc Claude rõ ràng vẫn nằm ngoài phạm vi vì chúng không khả dụng để nghiên cứu hoặc điều chỉnh.
Tiềm năng của công nghệ này vượt ra ngoài các biện pháp tiết kiệm chi phí. Sự tham gia của HP Tech Ventures báo hiệu sự quan tâm đến việc triển khai AI tại điểm đầu cuối - chạy các mô hình tinh vi cục bộ thay vì trên máy chủ đám mây.
"Phương pháp đổi mới của Multiverse có tiềm năng mang lại lợi ích AI về hiệu suất nâng cao, cá nhân hóa, quyền riêng tư và hiệu quả chi phí cho các công ty ở mọi quy mô," Tuan Tran, Chủ tịch Công nghệ và Đổi mới của HP, cho biết.
Vì vậy, nếu bạn thấy mình đang chạy DeepSeek R1 trên điện thoại thông minh vào một ngày nào đó, những chàng trai này có thể là người bạn nên cảm ơn.
Được biên tập bởi Josh Quittner và Sebastian Sinclair





