Từ bỏ các trung tâm dữ liệu, các công ty khởi nghiệp này đang xây dựng các mô hình AI mới

Bài viết này được dịch máy
Xem bản gốc

Bằng cách sử dụng các cụm GPU phân bổ trên toàn thế giới và kết hợp dữ liệu sở hữu tư nhân và riêng tư, các nhà nghiên cứu đã đào tạo thành công một loại mô hình ngôn ngữ lớn (LLM) mới - một bước đột phá có thể Sự lật đổ mô hình xây dựng trí tuệ nhân tạo chính thống hiện nay.

Flower AI và Vana, hai công ty khởi nghiệp AI đang đi theo con đường không theo khuôn mẫu, đã hợp tác để tạo ra mô hình mới này, có tên là Collective-1. Flower AI đã phát triển công nghệ cho phép phân phối nhiệm vụ đào tạo tới hàng trăm máy tính được kết nối mạng và các giải pháp của công ty đã được nhiều công ty sử dụng để đào tạo các mô hình AI không yêu cầu dữ liệu hoặc tỷ lệ băm tập trung. Vana cung cấp nguồn dữ liệu đa dạng bao gồm nền tảng X, Reddit và tin nhắn riêng tư Telegram.

Collective-1 có quy mô nhỏ theo tiêu chuẩn hiện đại — 7 tỷ tham số của nó (cùng nhau xác định khả năng của một mô hình) còn rất xa so với hàng trăm tỷ tham số trong các mô hình tiên tiến nhất hiện nay, chẳng hạn như các mô hình cung cấp năng lượng cho ChatGPT, Claude và Gemini .

Nic Lane, một nhà khoa học máy tính tại Đại học Cambridge và là đồng sáng lập Flower AI, chỉ ra rằng phương pháp phân tán này có tiềm năng khắc phục những hạn chế về quy mô của Collective-1. Ông tiết lộ rằng Flower AI đang đào tạo một mô hình 30 tỷ tham số bằng cách sử dụng dữ liệu truyền thống và có kế hoạch phát triển một mô hình 100 tỷ tham số vào cuối năm nay - gần với trình độ của các công ty dẫn đầu ngành. "Điều này có khả năng làm thay đổi cách mọi người nghĩ về AI và chúng tôi đang thúc đẩy điều đó", Lane cho biết. Công ty khởi nghiệp này cũng kết hợp hình ảnh cùng với âm thanh vào chương trình đào tạo của mình để tạo ra các mô hình đa phương thức.

Mô hình phân tán cũng có thể định hình lại động lực quyền lực trong ngành AI.

Hiện nay, các công ty AI dựa vào hai trụ cột để xây dựng mô hình: dữ liệu đào tạo khổng lồ và tỷ lệ băm khổng lồ tập trung tại các trung tâm dữ liệu - các trung tâm dữ liệu này được kết nối với các cụm GPU tiên tiến thông qua mạng cáp quang tốc độ cực cao. Họ cũng dựa rất nhiều vào dữ liệu có sẵn công khai được lấy từ web (mặc dù một số trong số này liên quan đến tài liệu có bản quyền), bao gồm các trang web và nội dung sách.

Mô hình này có nghĩa là chỉ những công ty và quốc gia có tiềm lực tài chính mạnh, có quyền tiếp cận lượng lớn chip cao cấp mới có thể phát triển những mô hình tiên tiến có giá trị nhất. Ngay cả các mô hình mã nguồn mở như Llama của Meta và R1 của Độ sâu Quest cũng đến từ các công ty có trung tâm dữ liệu lớn. Phương pháp phân tán cho phép các doanh nghiệp vừa và nhỏ cũng như các trường đại học phát triển AI sinh thái bằng cách tích hợp các nguồn lực phi tập trung hoặc cho phép các quốc gia thiếu cơ sở hạ tầng truyền thống xây dựng các mô hình mạnh mẽ hơn bằng cách kết nối nhiều trung tâm dữ liệu.

Lane cho rằng ngành công nghiệp AI sẽ ngày càng ưa chuộng phương pháp mới vượt qua những hạn chế của một trung tâm dữ liệu duy nhất. "So với mô hình trung tâm dữ liệu, giải pháp phân tán có thể mở rộng tỷ lệ băm một cách tinh tế hơn", ông giải thích.

Helen Toner, chuyên gia quản trị AI tại Trung tâm An ninh và Công nghệ mới nổi, nhận xét rằng giải pháp của Flower AI "có khả năng tác động đáng kể đến sự cạnh tranh và quản trị AI". Bà lưu ý: "Có thể vẫn khó để bắt kịp công nghệ tiên tiến nhất, nhưng đây là chiến lược có giá trị để theo kịp nhanh chóng".

Chia để trị

Cốt lõi của đào tạo AI phân tán nằm ở việc tái cấu trúc logic phân bổ tỷ lệ băm. Việc xây dựng một mô hình ngôn ngữ lớn đòi hỏi phải nhập một lượng lớn văn bản vào hệ thống và điều chỉnh các tham số để tạo ra phản hồi hiệu quả. Các trung tâm dữ liệu truyền thống phân chia nhiệm vụ đào tạo giữa các GPU khác nhau để thực hiện và sau đó tích hợp chúng định kì vào một mô hình chính thống nhất.

Công nghệ mới cho phép phân phối công việc từng được thực hiện trong các trung tâm dữ liệu lớn trên các thiết bị phần cứng cách xa nhau hàng dặm và chỉ được kết nối bằng mạng thông thường.

Những gã khổng lồ trong ngành cũng đang khám phá phương pháp học tập phân tán. Năm ngoái, các nhà nghiên cứu của Google đã đề xuất một khuôn khổ mới có tên là "Kết hợp đường dẫn phân tán" (DiPaCo), giúp cải thiện hiệu quả đào tạo phân tán. Để xây dựng các mô hình như Collective-1, Lane và các học giả Trung Quốc và Anh đã cùng nhau phát triển một công cụ mới có tên là Photon, sử dụng phương pháp biểu diễn dữ liệu hiệu quả hơn và giải pháp tích hợp chia sẻ đào tạo. Lane thừa nhận rằng mặc dù quá trình này chậm hơn so với đào tạo truyền thống nhưng nó linh hoạt hơn và có thể bổ sung đào tạo tăng tốc phần cứng bất cứ lúc nào.

Photon được phát triển bởi các nhà nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh và Đại học Chiết Giang và đã được mã nguồn mở vào tháng trước. Đối tác Vana của Flower AI cam kết cho phép người dùng chia sẻ dữ liệu cá nhân với các nhà xây dựng AI theo những cách mới - phần mềm của họ hỗ trợ người dùng đóng góp dữ liệu sở hữu tư nhân từ các nền tảng như X và Reddit, đồng thời có thể chỉ định phạm vi sử dụng và thậm chí nhận được phần thưởng tài chính.

Nhà đồng sáng lập Vana Anna Kazlauskas cho biết động thái này nhằm khai thác tiềm năng dữ liệu chưa được khai thác đồng thời trao cho người dùng quyền kiểm soát nhiều hơn. "Lần đầu tiên, dữ liệu không công khai này, thường không có sẵn cho các mô hình AI, được sử dụng để đào tạo mô hình cơ bản và người dùng có thể sở hữu các quyền và lợi ích của các mô hình được tạo ra bằng dữ liệu của họ", bà nhấn mạnh.

Mirco Musolesi, nhà khoa học máy tính tại University College London, chỉ ra rằng giá trị cốt lõi của đào tạo phân tán là mở khóa các loại dữ liệu mới: "Việc áp dụng nó vào các mô hình tiên tiến cho phép ngành AI sử dụng dữ liệu nhạy cảm phi tập trung trong các lĩnh vực như y học và tài chính để đào tạo, đồng thời tránh rủi ro tập trung dữ liệu ".

Chào mừng bạn tham gia cộng đồng chính thức BlockBeats :

Nhóm đăng ký Telegram: https://t.me/theblockbeats

Nhóm Telegram: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận