Những công ty khởi nghiệp này đang xây dựng các mô hình AI tiên tiến mà không cần trung tâm dữ liệu

avatar
WIRED
05-01
Bài viết này được dịch máy
Xem bản gốc

Các nhà nghiên cứu đã đào tạo một loại mô hình ngôn ngữ lớn (LLM) mới bằng cách sử dụng GPU được phân bố trên khắp thế giới và cung cấp dữ liệu công khai cũng như riêng tư—một động thái cho thấy phương thức xây dựng trí tuệ nhân tạo chủ đạo có thể bị phá vỡ.

Flower AIVana , hai công ty khởi nghiệp theo đuổi phương pháp tiếp cận phi truyền thống để xây dựng AI, đã hợp tác để tạo ra mô hình mới có tên là Collective-1.

Flower đã tạo ra các kỹ thuật cho phép đào tạo được lan truyền trên hàng trăm máy tính được kết nối qua internet. Công nghệ của công ty đã được một số công ty sử dụng để đào tạo các mô hình AI mà không cần phải tập hợp các tài nguyên tính toán hoặc dữ liệu. Vana đã cung cấp các nguồn dữ liệu bao gồm tin nhắn riêng tư từ X, Reddit và Telegram.

Collective-1 có quy mô nhỏ theo tiêu chuẩn hiện đại, với 7 tỷ tham số - các giá trị kết hợp để cung cấp cho mô hình khả năng của nó - so với hàng trăm tỷ tham số của các mô hình tiên tiến nhất hiện nay, chẳng hạn như các mô hình cung cấp năng lượng cho các chương trình như ChatGPT , ClaudeGemini .

Nic Lane, một nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập của Flower AI, cho biết phương pháp tiếp cận phân tán này hứa hẹn sẽ mở rộng quy mô vượt xa quy mô của Collective-1. Lane nói thêm rằng Flower AI đang trong quá trình đào tạo một mô hình với 30 tỷ tham số bằng dữ liệu thông thường và có kế hoạch đào tạo một mô hình khác với 100 tỷ tham số—gần bằng quy mô mà các công ty hàng đầu trong ngành cung cấp—vào cuối năm nay. Lane cho biết: "Nó thực sự có thể thay đổi cách mọi người nghĩ về AI, vì vậy chúng tôi đang theo đuổi điều này rất quyết liệt". Ông cho biết công ty khởi nghiệp này cũng đang kết hợp hình ảnh và âm thanh vào quá trình đào tạo để tạo ra các mô hình đa phương thức.

Việc xây dựng mô hình phân tán cũng có thể làm thay đổi động lực quyền lực vốn định hình ngành công nghiệp AI.

Các công ty AI hiện đang xây dựng mô hình của họ bằng cách kết hợp lượng lớn dữ liệu đào tạo với lượng lớn tính toán tập trung bên trong các trung tâm dữ liệu chứa đầy GPU tiên tiến được kết nối mạng với nhau bằng cáp quang siêu nhanh. Họ cũng dựa nhiều vào các tập dữ liệu được tạo ra bằng cách thu thập tài liệu có thể truy cập công khai—mặc dù đôi khi có bản quyền—bao gồm các trang web và sách.

Cách tiếp cận này có nghĩa là chỉ những công ty giàu nhất và các quốc gia có quyền truy cập vào số lượng lớn các chip mạnh nhất mới có thể phát triển các mô hình mạnh mẽ và có giá trị nhất. Ngay cả các mô hình nguồn mở, như Llama của MetaR1 từ DeepSeek , cũng được xây dựng bởi các công ty có quyền truy cập vào các trung tâm dữ liệu lớn. Các cách tiếp cận phân tán có thể giúp các công ty và trường đại học nhỏ hơn xây dựng AI tiên tiến bằng cách tập hợp các nguồn lực khác nhau lại với nhau. Hoặc nó có thể cho phép các quốc gia thiếu cơ sở hạ tầng thông thường kết nối mạng với nhau một số trung tâm dữ liệu để xây dựng một mô hình mạnh mẽ hơn.

Lane tin rằng ngành công nghiệp AI sẽ ngày càng hướng đến các phương pháp mới cho phép đào tạo thoát khỏi các trung tâm dữ liệu riêng lẻ. Ông cho biết phương pháp phân tán "cho phép bạn mở rộng quy mô tính toán một cách tinh tế hơn nhiều so với mô hình trung tâm dữ liệu".

Helen Toner, một chuyên gia về quản trị AI tại Trung tâm An ninh và Công nghệ mới nổi, cho biết cách tiếp cận của Flower AI là "thú vị và có khả năng rất phù hợp" với sự cạnh tranh và quản trị AI. "Có lẽ sẽ tiếp tục đấu tranh để theo kịp biên giới, nhưng có thể là một cách tiếp cận thú vị và nhanh chóng", Toner nói.

Đào tạo AI phân tán liên quan đến việc xem xét lại cách các phép tính được sử dụng để xây dựng các hệ thống AI mạnh mẽ được chia nhỏ. Việc tạo ra một LLM liên quan đến việc đưa một lượng lớn văn bản vào một mô hình điều chỉnh các tham số của nó để tạo ra các phản hồi hữu ích cho một lời nhắc. Bên trong một trung tâm dữ liệu, quá trình đào tạo được chia nhỏ để các phần có thể chạy trên các GPU khác nhau, sau đó được hợp nhất định kỳ thành một mô hình chính duy nhất.

Phương pháp mới cho phép công việc thường được thực hiện bên trong một trung tâm dữ liệu lớn có thể được thực hiện trên phần cứng cách xa nhiều dặm và được kết nối qua kết nối internet tương đối chậm hoặc không ổn định.

Một số công ty lớn cũng đang khám phá phương pháp học phân tán. Năm ngoái, các nhà nghiên cứu tại Google đã trình diễn một chương trình mới để phân chia và hợp nhất các phép tính được gọi là DIstributed PAth COmposition (DiPaCo) cho phép học phân tán hiệu quả hơn.

Để xây dựng Collective-1 và các LLM khác, Lane và các cộng tác viên học thuật tại Anh và Trung Quốc đã phát triển một công cụ mới có tên là Photon giúp đào tạo phân tán hiệu quả hơn. Lane cho biết Photon cải thiện cách tiếp cận của Google với cách tiếp cận hiệu quả hơn để biểu diễn dữ liệu trong mô hình và một sơ đồ hiệu quả hơn để chia sẻ và hợp nhất đào tạo. Quá trình này chậm hơn đào tạo thông thường nhưng linh hoạt hơn, cho phép thêm phần cứng mới để tăng tốc đào tạo, Lane cho biết.

Photon được phát triển với sự hợp tác của các nhà nghiên cứu tại Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang ở Trung Quốc. Nhóm đã phát hành công cụ này theo giấy phép nguồn mở vào tháng trước, cho phép bất kỳ ai cũng có thể sử dụng phương pháp này.

Đối tác của Flower AI trong nỗ lực xây dựng Collective-1, Vana, đang phát triển những cách mới để người dùng chia sẻ dữ liệu cá nhân với những người xây dựng AI. Phần mềm của Vana cho phép người dùng đóng góp dữ liệu riêng tư từ các nền tảng như X và Reddit để đào tạo một mô hình ngôn ngữ lớn và có khả năng chỉ định loại mục đích sử dụng cuối cùng nào được phép hoặc thậm chí được hưởng lợi về mặt tài chính từ những đóng góp của họ.

Anna Kazlauskas, đồng sáng lập của Vana, cho biết ý tưởng này là cung cấp dữ liệu chưa được khai thác cho mục đích đào tạo AI và cũng để người dùng kiểm soát nhiều hơn cách thông tin của họ được sử dụng cho AI. "Đây là dữ liệu thường không thể đưa vào các mô hình AI vì nó không được công khai", Kazlauskas cho biết, "và đây là lần đầu tiên dữ liệu do người dùng trực tiếp đóng góp được sử dụng để đào tạo một mô hình nền tảng, với người dùng được trao quyền sở hữu mô hình AI mà dữ liệu của họ tạo ra".

Mirco Musolesi, một nhà khoa học máy tính tại University College London, cho biết một lợi ích chính của phương pháp tiếp cận phân tán đối với đào tạo AI có thể là nó mở ra các loại dữ liệu mới. "Việc mở rộng quy mô này thành các mô hình tiên tiến sẽ cho phép ngành công nghiệp AI tận dụng lượng lớn dữ liệu phi tập trung và nhạy cảm với quyền riêng tư, ví dụ như trong chăm sóc sức khỏe và tài chính, để đào tạo mà không có rủi ro liên quan đến việc tập trung dữ liệu", ông nói.

Bạn nghĩ gì về máy học phân tán? Bạn có đóng góp dữ liệu của mình cho một mô hình như Collective-1 không? Gửi email đến hello@wired.com hoặc bình luận bên dưới để cho tôi biết.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
Bình luận