Xây dựng một lớp suy luận AI phổ quát! Dự án mã nguồn mở vLLM hướng đến mục tiêu trở thành một công cụ suy luận toàn cầu như thế nào?

avatar
ABMedia
01-23
Bài viết này được dịch máy
Xem bản gốc

Với sự phát triển nhanh chóng của các mô hình AI, làm thế nào để suy luận hiệu quả từ các mô hình lớn này đã trở thành một vấn đề then chốt mà ngành công nghiệp không thể tránh khỏi. Dự án mã nguồn mở vLLM từ Đại học UC Berkeley không chỉ trực tiếp giải quyết thách thức kỹ thuật này mà còn dần xây dựng cộng đồng và hệ sinh thái riêng, thậm chí dẫn đến sự ra đời của Inferact, một công ty khởi nghiệp tập trung vào cơ sở hạ tầng suy luận. Bài viết này sẽ đưa bạn đi sâu vào nguồn gốc của vLLM, những đột phá công nghệ của nó, sự phát triển của cộng đồng mã nguồn mở và cách Inferact hướng đến việc tạo ra một "công cụ đa năng cho suy luận AI".

Từ thí nghiệm học thuật đến dự án nổi bật trên GitHub: Sự ra đời của vLLM

vLLM bắt nguồn từ một dự án nghiên cứu tiến sĩ tại UC Berkeley nhằm giải quyết sự thiếu hiệu quả của quá trình suy luận trong các mô hình ngôn ngữ lớn (LLM). Vào thời điểm đó, Meta mã nguồn mở mô hình OPT, và Woosuk Kwon, một trong những người đóng góp ban đầu cho vLLM, đã cố gắng tối ưu hóa dịch vụ demo của nó, phát hiện ra rằng nó đại diện cho một vấn đề chưa được giải quyết trong hệ thống suy luận. "Chúng tôi nghĩ rằng chỉ mất vài tuần, nhưng nó đã mở ra một hướng đi hoàn toàn mới cho nghiên cứu và phát triển," Kwon nhớ lại.

Thử thách từ dưới lên: Tại sao suy luận LLM lại khác với ML truyền thống?

vLLM nhắm đến các mô hình ngôn ngữ tự hồi quy, có quá trình suy luận động, bất đồng bộ và không thể xử lý lần , khiến chúng rất khác so với các mô hình xử lý hình ảnh hoặc giọng nói truyền thống. Độ dài đầu vào của các mô hình này có thể dao động từ một câu đơn đến hàng trăm trang tài liệu, đòi hỏi phân bổ bộ nhớ GPU chính xác, và làm cho việc lập lịch ở cấp độ token và xử lý bộ nhớ đệm cặp khóa-giá trị trở nên cực kỳ phức tạp.

Một trong những đột phá công nghệ quan trọng của vLLM là "Page Attention", một thiết kế giúp hệ thống quản lý bộ nhớ hiệu quả hơn và xử lý các yêu cầu đa dạng cũng như các chuỗi đầu ra dài.

Không chỉ đơn thuần là lập trình: Một bước ngoặt quan trọng trong quá trình chuyển đổi từ môi trường học thuật sang cộng đồng mã nguồn mở.

Vào năm 2023, đội ngũ vLLM đã tổ chức buổi gặp mặt cộng đồng mã nguồn mở lần tại Thung lũng Silicon. Ban đầu họ dự đoán chỉ có khoảng chục người tham dự, nhưng số lượng người đăng ký đã vượt xa mong đợi, và địa điểm tổ chức chật kín người, đánh dấu một bước ngoặt trong sự phát triển cộng đồng.

Kể từ đó, cộng đồng vLLM đã phát triển nhanh chóng, hiện có hơn 50 người đóng góp thường xuyên và hơn 2.000 người đóng góp trên GitHub, trở thành một trong những dự án mã nguồn mở phát triển nhanh nhất hiện nay, với sự hỗ trợ từ Meta, Red Hat, NVIDIA, AMD, AWS, Google và bên long.

Bên long thế lực cùng cạnh tranh trên một sân khấu: tạo ra một "hệ điều hành được hỗ trợ bởi trí tuệ nhân tạo".

Một trong những chìa khóa thành công của vLLM là nó đã tạo ra một nền tảng chung cho các nhà phát triển mô hình, nhà sản xuất chip và nhà phát triển ứng dụng. Họ không cần phải giao tiếp với nhau; họ chỉ cần giao tiếp với vLLM để đạt được khả năng tương thích tối đa giữa mô hình và phần cứng.

Điều này cũng có nghĩa là vLLM đang cố gắng tạo ra một "hệ điều hành AI": cho phép tất cả các mô hình và tất cả phần cứng chạy trên cùng một công cụ suy luận chung.

Việc suy luận ngày càng trở nên khó khăn? Áp lực ba chiều đến từ quy mô, phần cứng và trí tuệ nhân tạo.

Những thách thức trong lập luận ngày càng nâng cấp, bao gồm:

  1. Quy mô của các mô hình đã bùng nổ: từ hàng chục tỷ tham số ban đầu đến các mô hình cấp độ nghìn tỷ như Kim K2 ngày nay, tài nguyên tính toán cần thiết cho quá trình suy luận cũng tăng lên tương ứng.

  2. Sự đa dạng về mô hình và phần cứng: Mặc dù kiến ​​trúc Transformer khá nhất quán, nhưng các chi tiết bên trong ngày càng trở nên khác biệt, với nhiều biến thể như cơ chế chú ý thưa (sparse attention) và chú ý tuyến tính (linear attention) xuất hiện liên tiếp.

  3. Sự trỗi dậy của các hệ thống tác nhân: Các mô hình không chỉ trả lời một vòng duy nhất mà còn tham gia vào các cuộc đối thoại liên tục, gọi các công cụ bên ngoài, thực thi các kịch bản Python, v.v. Lớp suy luận cần duy trì trạng thái trong thời gian dài và xử lý đầu vào không đồng bộ, làm tăng thêm ngưỡng kỹ thuật.

Ứng dụng thực tế: Nghiên cứu trường hợp triển khai vLLM quy mô lớn

vLLM không chỉ là một công cụ nghiên cứu lý thuyết; nó đã ra mắt trên các nền tảng lớn như Amazon, LinkedIn và Character AI. Ví dụ, trợ lý ảo "Rufus" của Amazon được hỗ trợ bởi vLLM, đóng vai trò là công cụ suy luận đằng sau các tìm kiếm mua sắm.

Thậm chí đã có những trường hợp các kỹ sư triển khai tính năng vLLM trực tiếp lên hàng trăm GPU trong khi tính năng này vẫn đang trong giai đoạn phát triển, cho thấy mức độ tin tưởng cao mà cộng đồng dành cho nó.

Công ty đứng sau vLLM: Nhân vật và viễn cảnh mong đợi của Inferact

Để thúc đẩy hơn nữa sự phát triển của vLLM, các nhà phát triển cốt lõi đã thành lập Inferact và thu hút được đầu tư bên long. Không giống như các công ty thương mại thông thường, Inferact ưu tiên mã nguồn mở mở. Một trong những người sáng lập, Simon Mo, tuyên bố: "Công ty chúng tôi tồn tại để biến vLLM thành công cụ suy luận tiêu chuẩn toàn cầu." Mô hình kinh doanh của Inferact xoay quanh việc duy trì và mở rộng hệ sinh thái vLLM đồng thời cung cấp triển khai và hỗ trợ cấp doanh nghiệp, tạo ra nhiệm vụ tiếp cận song song giữa phát triển thương mại và mã nguồn mở.

Inferact hiện đang tích cực tuyển dụng các kỹ sư có kinh nghiệm về cơ sở hạ tầng học máy, đặc biệt là những người thành thạo về suy luận mô hình quy mô lớn, hệ thống phân tán và tăng tốc phần cứng. Điều này tạo ra cơ hội cho các nhà phát triển tìm kiếm những thách thức kỹ thuật và tối ưu hóa hệ thống độ sâu để tham gia vào thế hệ tiếp theo của cơ sở hạ tầng AI.

Đội ngũ cứu hướng đến việc tạo ra một "lớp trừu tượng" tương tự như hệ điều hành hoặc cơ sở dữ liệu, cho phép các mô hình AI hoạt động trơn tru trên nhiều phần cứng và kịch bản ứng dụng khác nhau.

Bài viết này, "Xây dựng một lớp suy luận AI phổ quát! Dự án mã nguồn mở vLLM hướng đến mục tiêu trở thành một công cụ suy luận toàn cầu như thế nào?", lần đầu tiên xuất hiện trên ABMedia ABMedia .

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận