Nghiên cứu chuyên sâu: Việc xây dựng mô hình AI phi tập trung thông qua huy động vốn từ cộng đồng có thực sự khả thi?

18 giờ trước

Bài viết này được dịch máy

Xem bản gốc

Mục lục bài viết này

hiện hữu

Folding@home đã đạt được một cột mốc quan trọng trong đại dịch COVID-19. Dự án nghiên cứu đã đạt được 2,4 exaFLOPS sức mạnh tính toán, được cung cấp bởi 2 triệu thiết bị tình nguyện trên toàn thế giới.

Con số này gấp mười lăm lần sức mạnh xử lý của các siêu máy tính lớn nhất thế giới vào thời điểm đó, cho phép các nhà khoa học mô phỏng động lực học của protein COVID trên quy mô lớn. Công việc của họ đã nâng cao hiểu biết của chúng ta về virus và cơ chế bệnh sinh của nó, đặc biệt là ở giai đoạn đầu của dịch bệnh.

Sự phân bổ toàn cầu của người dùng Folding@home, 2021

Tài nguyên điện toán gây quỹ cộng đồng để giải quyết vấn đề

Dựa trên lịch sử lâu dài của điện toán tình nguyện, Folding@home dự án huy động tài nguyên điện toán từ cộng đồng để giải quyết các vấn đề quy mô lớn. Ý tưởng này đã thu hút được sự chú ý rộng rãi vào những năm 1990 với SETI@home, một dự án quy tụ hơn 5 triệu máy tính tình nguyện tham gia tìm kiếm sự sống ngoài Trái đất.

Ý tưởng này kể từ đó đã được áp dụng cho nhiều lĩnh vực khác nhau, bao gồm vật lý thiên văn, sinh học phân tử, toán học, mật mã và chơi game. Trong mỗi trường hợp, sức mạnh tập thể đã nâng cao khả năng của từng dự án riêng lẻ vượt xa những gì họ có thể đạt được riêng lẻ. Điều này thúc đẩy sự tiến bộ và cho phép nghiên cứu được tiến hành theo cách cởi mở và hợp tác hơn.

Mô hình gây quỹ cộng đồng có thể được sử dụng cho độ sâu learning không?

Nhiều người thắc mắc liệu chúng ta có thể áp dụng mô hình huy động vốn cộng đồng này vào độ sâu learning hay không. Nói cách khác, liệu chúng ta có thể huấn luyện một mạng lưới thần kinh lớn trên số đông không? Đào tạo mô hình front-end là một trong nhiệm vụ tính toán chuyên sâu nhất trong lịch sử loài người. Giống như nhiều dự án @home, chi phí hiện tại nằm ngoài tầm với của những người chơi lớn nhất.

Điều này có thể cản trở sự tiến bộ trong tương lai khi chúng ta ngày càng dựa vào ít công ty hơn để tìm ra những đột phá mới. Điều này cũng tập trung quyền kiểm soát hệ thống AI của chúng tôi vào tay một số ít người. Cho dù bạn cảm thấy thế nào về công nghệ thì đây vẫn là một tương lai đáng theo dõi.

Hầu hết các nhà phê bình đều bác bỏ ý tưởng đào tạo phi tập trung cho rằng không tương thích với công nghệ đào tạo hiện tại. Tuy nhiên, quan điểm này ngày càng lỗi thời. Các công nghệ mới đã xuất hiện giúp giảm nhu cầu liên lạc giữa nút, cho phép đào tạo hiệu quả trên các thiết bị có kết nối mạng kém.

Những công nghệ này bao gồm DiLoCo, SWARM Parallelism, lo-fi và đào tạo phi tập trung các mô hình cơ bản trong hoàn cảnh không đồng nhất. Nhiều trong đó có khả năng chịu lỗi và hỗ trợ tính toán không đồng nhất. Ngoài ra còn có các kiến trúc mới được thiết kế đặc biệt cho các mạng phi tập trung, bao gồm DiPaCo và mô hình chuyên gia lai phi tập trung.

Chúng tôi cũng thấy nhiều loại mật crypto khác nhau bắt đầu trưởng thành, cho phép các mạng phối hợp các tài nguyên trên quy mô toàn cầu. Những công nghệ này hỗ trợ các kịch bản ứng dụng như tiền kỹ thuật số, thanh toán xuyên biên giới và thị trường dự đoán. Không giống như các dự án tình nguyện trước đó, các mạng này có thể tổng hợp sức mạnh tính toán đáng kinh ngạc, thường có cường độ lớn hơn các cụm đào tạo đám mây lớn nhất hiện nay được tưởng tượng.

Cùng với nhau, những yếu tố này tạo thành một mô hình đào tạo chính quy mới. Việc chính thức hóa này tận dụng các tài nguyên điện toán của thế giới, bao gồm lượng lớn các thiết bị biên có thể được sử dụng nếu được kết nối với nhau. Điều này sẽ giảm chi phí của hầu hết khối lượng công việc đào tạo bằng cách đưa ra các cơ chế cạnh tranh mới. Nó cũng có thể mở khóa các hình thức đào tạo mới, giúp việc phát triển mô hình mang tính hợp tác và mô-đun thay vì đơn lẻ và nguyên khối.

Các mô hình có thể thu thập các phép tính và dữ liệu từ công chúng và học hỏi một cách nhanh chóng. Các cá nhân có thể sở hữu các bộ phận của mô hình mà họ xây dựng. Các nhà nghiên cứu cũng có thể chia sẻ lại những phát hiện mới một cách công khai mà không cần phải kiếm tiền từ những phát hiện của họ để trang trải ngân sách tính toán cao.

Báo cáo này xem xét hiện trạng đào tạo mô hình lớn và các chi phí liên quan. Nó đánh giá các nỗ lực điện toán phi tập trung trước đây—từ SETI đến Folding đến BOINC—để lấy cảm hứng khám phá các con đường thay thế. Báo cáo thảo luận về những thách thức lịch sử của đào tạo phi tập trung và đề cập đến những đột phá gần đây có thể giúp vượt qua những thách thức này. Cuối cùng, nó tóm tắt những cơ hội và thách thức trong tương lai.

Hiện trạng đào tạo mô hình front-end

Chi phí đào tạo mô hình front-end đã trở nên quá cao đối với những người chơi không lớn. Xu hướng này không phải là mới, nhưng trên thực tế, tình hình ngày càng nghiêm trọng hơn khi các phòng thí nghiệm front-end tiếp tục thách thức các giả định mở rộng.

Theo báo cáo, OpenAI đã chi hơn 3 tỷ USD cho việc đào tạo trong năm nay. Anthropic dự đoán đến năm 2025, chúng ta sẽ bắt đầu đào tạo 10 tỷ USD, và những mô hình 100 tỷ USD không còn xa nữa.

Xu hướng này dẫn đến sự tập trung của ngành vì chỉ một số ít công ty có đủ khả năng tham gia. Điều này đặt ra một câu hỏi chính sách cốt lõi cho tương lai - liệu chúng ta có thể chấp nhận tình huống tất cả các hệ thống AI hàng đầu đều do một hoặc hai công ty kiểm soát không? Điều này cũng hạn chế tốc độ tiến bộ, điều này thể hiện rõ trong cộng đồng nghiên cứu, vì các phòng thí nghiệm nhỏ hơn không đủ khả năng cung cấp tài nguyên máy tính cần thiết để mở rộng các dãy thí nghiệm.

Các nhà lãnh đạo ngành đã đề cập đến điều này lần:

Joe Spisak của Meta:

Để thực sự hiểu được khả năng của kiến trúc [mô hình], bạn phải khám phá nó trên quy mô lớn và tôi cho rằng đó là điều còn thiếu trong hệ sinh thái hiện tại. Nếu bạn nhìn vào giới học thuật -- có rất nhiều người xuất sắc trong giới học thuật, nhưng họ thiếu khả năng tiếp cận các nguồn tài nguyên máy tính, và điều đó trở thành một vấn đề vì họ có những ý tưởng tuyệt vời này nhưng không thực sự triển khai chúng ở mức độ cần thiết.

Max Ryabinin từ Cùng nhau:

Nhu cầu về phần cứng đắt tiền gây áp lực lớn lên cộng đồng nghiên cứu. Hầu hết các nhà nghiên cứu không thể tham gia phát triển mạng lưới thần kinh quy mô lớn vì chi phí để họ tiến hành các thí nghiệm cần thiết là rất cao. Nếu chúng tôi tiếp tục tăng quy mô của mô hình bằng cách mở rộng quy mô, cuối cùng chúng tôi sẽ có thể phát triển nó.

Francois Chollet từ Google:

Chúng tôi biết rằng các mô hình ngôn ngữ lớn (LLM) vẫn chưa đạt được trí tuệ nhân tạo tổng quát (AGI). Trong khi đó, tiến trình hướng tới AGI đã bị đình trệ. Những hạn chế mà chúng tôi gặp phải với các mô hình ngôn ngữ lớn cũng chính là những hạn chế mà chúng tôi gặp phải 5 năm trước. Chúng ta cần những ý tưởng và đột phá mới.

Tôi cho rằng bước đột phá tiếp theo có thể đến từ đội ngũ bên ngoài trong khi tất cả các phòng thí nghiệm lớn đang bận rộn đào tạo các mô hình ngôn ngữ lớn hơn. Một số người hoài nghi về những lo ngại này, cho rằng cải tiến phần cứng và chi tiêu vốn cho điện toán đám mây sẽ giải quyết được vấn đề.

Nhưng điều này có vẻ không thực tế. Một mặt, đến cuối thập kỷ này, số lượng FLOP trong thế hệ chip Nvidia mới sẽ tăng lên đáng kể, có thể đạt tới gấp 10 lần so với H100 ngày nay. Điều này sẽ giảm giá mỗi FLOP xuống 80-90%.

Tương tự như vậy, tổng nguồn cung FLOP dự kiến sẽ tăng khoảng 20 lần trong 10 năm tới, cùng với những cải tiến về mạng lưới và cơ sở hạ tầng liên quan. Tất cả điều này sẽ làm tăng hiệu quả đào tạo trên mỗi đô la.

Nguồn: Mô hình TCO đám mây AI bán phân tích

Đồng thời, tổng nhu cầu FLOP cũng sẽ tăng đáng kể khi các phòng thí nghiệm tìm cách mở rộng quy mô hơn nữa. Nếu xu hướng tính toán đào tạo trong 10 năm không thay đổi, FLOP đào tạo front-end dự kiến sẽ đạt khoảng 2e29 vào năm 2030. Việc đào tạo ở quy mô này sẽ cần khoảng 20 triệu GPU tương đương H100, dựa trên thời gian thực hiện và mức sử dụng đào tạo hiện tại.

Giả sử vẫn còn nhiều phòng thí nghiệm ngoại vi trong khu vực này, tổng số FLOPS cần thiết sẽ gấp vài lần con số này vì tổng nguồn cung sẽ được chia cho chúng. EpochAI dự đoán chúng ta sẽ cần khoảng 100 triệu GPU tương đương H100 vào thời điểm đó, gấp khoảng 50 lần bán ra vào năm 2024. SemiAnalysis cũng đưa ra dự đoán tương tự, cho rằng nhu cầu đào tạo front-end và nguồn cung GPU tăng trưởng song song trong giai đoạn này.

Điều kiện năng lực có thể trở nên căng thẳng hơn vì một số lý do. Ví dụ: trường hợp này thường xảy ra nếu tắc nghẽn sản xuất làm trì hoãn thời gian bán ra ước tính. Hoặc nếu chúng ta không sản xuất đủ năng lượng để cung cấp năng lượng cho trung tâm dữ liệu.

Hoặc nếu chúng ta gặp khó khăn khi kết nối các nguồn năng lượng đó vào lưới điện. Hoặc nếu việc tăng cường giám sát chi tiêu vốn cuối cùng sẽ dẫn đến việc thu hẹp quy mô ngành, cùng với các yếu tố khác. Trong trường hợp tốt nhất, phương pháp hiện tại của chúng tôi chỉ cho phép một số công ty tiếp tục thúc đẩy nghiên cứu và điều đó có thể là chưa đủ.

Rõ ràng, chúng ta cần một phương pháp mới. Phương pháp này giúp loại bỏ nhu cầu liên tục mở rộng các trung tâm dữ liệu, chi phí vốn và tiêu thụ năng lượng để tìm ra bước đột phá tiếp theo, mà thay vào đó tận dụng hiệu quả cơ sở hạ tầng hiện có của chúng tôi với khả năng linh hoạt mở rộng các bộ khi nhu cầu biến động. Điều này sẽ cho phép có nhiều khả năng thử nghiệm hơn trong nghiên cứu, vì việc thực hiện đào tạo sẽ không còn cần phải đảm bảo lợi tức đầu tư cho ngân sách điện toán trị giá hàng tỷ đô la.

Sau khi thoát khỏi giới hạn này, chúng ta có thể vượt qua mô hình mô hình ngôn ngữ lớn (LLM) hiện tại, vì nhiều người cho rằng rằng cần thiết để đạt được trí tuệ nhân tạo tổng quát (AGI). Để hiểu giải pháp thay thế này trông như thế nào, chúng ta có thể lấy cảm hứng từ các hoạt động tính toán phi tập trung trong quá khứ.

Điện toán đám đông: Lược sử lịch sử

SETI@home đã phổ biến khái niệm này vào năm 1999, cho phép hàng triệu người tham gia phân tích tín hiệu vô tuyến để tìm kiếm trí thông minh ngoài Trái đất. SETI thu thập dữ liệu điện từ từ kính thiên văn Arecibo, chia thành lần và truyền đến người dùng qua Internet. Người dùng phân tích dữ liệu trong hoạt động hàng ngày của họ và gửi lại kết quả.

Không cần giao tiếp giữa những người dùng và lần có thể được kiểm tra độc lập, do đó đạt được mức độ xử lý song song cao. Vào thời kỳ đỉnh cao, SETI@home có hơn 5 triệu người tham gia và có sức mạnh xử lý mạnh hơn các siêu máy tính lớn nhất thời bấy giờ. Cuối cùng nó đã đóng cửa vào tháng 3 năm 2020, nhưng thành công của nó khích lệ phong trào điện toán tự nguyện sau đó.

Folding@home tiếp tục ý tưởng này vào năm 2000, sử dụng điện toán biên để mô phỏng quá trình gấp protein trong các bệnh như Alzheimer, ung thư và bệnh Parkinson. Các tình nguyện viên dành thời gian rảnh rỗi trên PC để thực hiện mô phỏng protein, giúp các nhà nghiên cứu nghiên cứu xem protein gấp cuộn sai và dẫn đến bệnh tật như thế nào. Tại nhiều thời điểm khác nhau trong lịch sử của nó, sức mạnh tính toán của nó đã vượt quá sức mạnh tính toán của các siêu máy tính lớn nhất vào thời điểm đó, kể cả vào cuối những năm 2000 và trong thời kỳ COVID, khi nó trở thành dự án điện toán phi tập trung đầu tiên vượt quá một exaFLOPS. Kể từ khi thành lập, các nhà nghiên cứu của Folding đã xuất bản hơn 200 bài báo được bình duyệt, mỗi bài đều dựa vào khả năng tính toán của các tình nguyện viên.

Cơ sở hạ tầng mở cho điện toán mạng Berkeley (BOINC) đã phổ biến ý tưởng này vào năm 2002, cung cấp nền tảng điện toán được tài trợ bởi cộng đồng cho các dự án nghiên cứu khác nhau. Nó hỗ trợ nhiều dự án như SETI@home và Folding@home, cũng như các dự án mới trong các lĩnh vực như vật lý thiên văn, sinh học phân tử, toán học và mật mã. Đến năm 2024, BOINC liệt kê 30 dự án đang triển khai và gần 1.000 bài báo khoa học đã xuất bản, tất cả đều được sản xuất bằng mạng máy tính của BOINC.

Ngoài nghiên cứu khoa học, điện toán tình nguyện còn được sử dụng để đào tạo các công cụ trò chơi như cờ vây (LeelaZero, KataGo) và cờ vua (Stockfish, LeelaChessZero). LeelaZero được đào tạo từ năm 2017 đến năm 2021 thông qua điện toán tình nguyện, cho phép nó chơi hơn 10 triệu trò chơi với chính nó, tạo ra một trong những công cụ cờ vây mạnh nhất hiện nay. Tương tự, Stockfish đã được đào tạo liên tục trên mạng lưới tình nguyện viên kể từ năm 2013, khiến nó trở thành một trong những công cụ cờ vua mạnh mẽ và phổ biến nhất.

Về những thách thức của học độ sâu

Nhưng liệu chúng ta có thể áp dụng mô hình này vào độ sâu learning không? Chúng ta có thể kết nối các thiết bị biên trên khắp thế giới để tạo ra một cụm đào tạo công cộng chi phí thấp không? Phần cứng tiêu dùng — từ máy tính xách tay Apple đến card đồ họa chơi game Nvidia — đang ngày càng tốt hơn trong khả năng học độ sâu. Trong nhiều trường hợp, hiệu suất của các thiết bị này vượt quá hiệu suất trên mỗi đô la của card đồ họa của trung tâm dữ liệu.

Tuy nhiên, để sử dụng hiệu quả các tài nguyên này trong hoàn cảnh phi tập trung, chúng ta cần vượt qua nhiều thách thức khác nhau.

Đầu tiên, các kỹ thuật đào tạo phi tập trung hiện nay đòi hỏi phải có sự liên lạc thường xuyên giữa nút.

Các mô hình tiên tiến hiện nay đã phát triển lớn đến mức việc đào tạo phải được chia thành hàng nghìn GPU. Điều này đạt được thông qua nhiều kỹ thuật song song hóa, thường là chia tách mô hình, tập dữ liệu hoặc cả hai cùng lúc trên các GPU có sẵn. Điều này thường yêu cầu mạng có băng thông cao và độ trễ thấp, nếu không nút sẽ không hoạt động, chờ dữ liệu đến.

Ví dụ: song song dữ liệu phân tán (DDP) phân phối tập dữ liệu trên các GPU, trong đó mỗi GPU đào tạo một mô hình hoàn chỉnh trên đoạn dữ liệu cụ thể của nó, sau đó chia sẻ các bản cập nhật độ dốc của nó để tạo tỷ trọng mô hình mới ở mỗi bước. Điều này đòi hỏi chi phí liên lạc tương đối hạn chế, vì nút chỉ chia sẻ các cập nhật độ dốc sau lần truyền ngược và các hoạt động liên lạc tập thể có thể trùng lặp một phần với tính toán.

Tuy nhiên, phương pháp này chỉ hiệu quả với các mô hình nhỏ hơn vì nó yêu cầu mỗi GPU lưu trữ toàn bộ tỷ trọng, giá trị được bật và trạng thái tối ưu hóa của mô hình trong bộ nhớ. Ví dụ: GPT-4 yêu cầu hơn 10TB bộ nhớ trong quá trình đào tạo, trong khi một chiếc H100 chỉ có 80GB.

Để giải quyết vấn đề này, chúng tôi cũng sử dụng nhiều kỹ thuật khác nhau để phân chia mô hình phân phối trên các GPU. Ví dụ: tính song song tensor phân chia tỷ trọng riêng lẻ trong một lớp duy nhất, cho phép mỗi GPU thực hiện các hoạt động cần thiết và chuyển đầu ra sang các GPU khác. Điều này làm giảm yêu cầu bộ nhớ của từng GPU nhưng yêu cầu liên lạc liên tục giữa chúng, do đó yêu cầu kết nối băng thông cao, độ trễ thấp để đạt hiệu quả.

Tính song song của đường ống phân phối các lớp của mô hình lên các GPU riêng lẻ, trong đó mỗi GPU thực hiện công việc của mình và chia sẻ các bản cập nhật với GPU tiếp theo trong đường ống. Mặc dù điều này đòi hỏi ít giao tiếp hơn so với song song tensor, nhưng "bong bóng" (ví dụ: thời gian nhàn rỗi) có thể xảy ra khi GPU ở phía sau quy trình chờ thông tin từ các GPU trước đó để bắt đầu Công việc của chúng.

Để giải quyết những thách thức này, nhiều công nghệ khác nhau đã được phát triển. Ví dụ: ZeRO (Zero Redundancy Optimizer) là một kỹ thuật tối ưu hóa bộ nhớ giúp giảm mức sử dụng bộ nhớ bằng cách tăng chi phí liên lạc, cho phép đào tạo các mô hình lớn hơn trên một thiết bị cụ thể. ZeRO giảm yêu cầu bộ nhớ bằng cách phân chia các tham số mô hình, độ dốc và trạng thái tối ưu hóa giữa các GPU, nhưng dựa vào giao tiếp lượng lớn để thiết bị có thể lấy được dữ liệu phân tách. Đây là phương pháp cơ bản cho các công nghệ phổ biến như Song song dữ liệu được phân chia hoàn toàn (FSDP) và DeepSpeed.

Những kỹ thuật này thường được sử dụng kết hợp trong đào tạo mô hình lớn để tối đa hóa hiệu quả sử dụng tài nguyên, được gọi là song song 3D. Trong cấu hình này, tính song song tensor thường được sử dụng để phân phối tỷ trọng trên các GPU trong một máy chủ do yêu cầu lượng lớn giữa mỗi lớp phân chia.

Sau đó, tính song song của đường ống được sử dụng để phân phối các tầng giữa các máy chủ khác nhau (nhưng trong cùng một hòn đảo trong trung tâm dữ liệu) vì nó yêu cầu ít giao tiếp hơn. Tiếp theo, song song dữ liệu hoặc Song song dữ liệu được phân chia hoàn toàn (FSDP) được sử dụng để phân chia tập dữ liệu giữa các đảo máy chủ khác nhau, vì nó có thể điều chỉnh các thay đổi về kích thước của dữ liệu bằng cách chia sẻ các bản cập nhật không đồng bộ và/hoặc nén độ trễ mạng dài. Meta sử dụng phương pháp kết hợp này để huấn luyện Llama 3.1, như minh họa trong sơ đồ bên dưới.

Phương pháp này đặt ra những thách thức cốt lõi phi tập trung dựa vào các thiết bị được kết nối thông qua Internet cấp tiêu dùng (chậm hơn và dễ biến động hơn). Trong hoàn cảnh này, chi phí liên lạc có thể nhanh chóng vượt xa lợi nhuận của điện toán biên vì các thiết bị thường không hoạt động, chờ dữ liệu đến.

Ví dụ đơn giản, để huấn luyện song song một mô hình bán chính xác với 1 tỷ tham chiếu bằng dữ liệu phân tán, mỗi GPU cần chia sẻ 2GB dữ liệu trong mỗi bước tối ưu hóa. Lấy băng thông Internet thông thường (chẳng hạn như 1 gigabit mỗi giây) làm ví dụ, giả sử rằng tính toán và giao tiếp không trùng nhau, việc truyền tải các bản cập nhật gradient mất ít nhất 16 giây, dẫn đến thời gian nhàn rỗi đáng kể. Các kỹ thuật như song song tensor (đòi hỏi nhiều giao tiếp hơn) tất nhiên sẽ hoạt động kém hơn.

Thứ hai, kỹ thuật đào tạo hiện tại thiếu khả năng chịu lỗi. Giống như bất kỳ hệ thống phi tập trung nào, các cụm đào tạo dễ bị thất bại hơn khi chúng tăng quy mô. Tuy nhiên, vấn đề này càng trở nên trầm trọng hơn trong quá trình đào tạo vì công nghệ hiện tại của chúng tôi chủ yếu là đồng bộ, nghĩa là các GPU phải làm việc cùng nhau để hoàn thành quá trình đào tạo mô hình.

Lỗi của một GPU trong số hàng nghìn GPU có thể khiến toàn bộ quá trình đào tạo bị dừng lại, buộc các GPU khác phải bắt đầu đào tạo lại từ đầu. Trong một số trường hợp, GPU không bị hỏng hoàn toàn mà trở nên ì ạch vì nhiều lý do khác nhau, làm chậm hàng nghìn GPU khác trong cụm. Với quy mô của các cụm ngày nay, điều này có thể đồng nghĩa với việc phải trả thêm chi phí từ hàng chục đến hàng trăm triệu đô la.

Meta đã giải thích chi tiết hơn về những vấn đề này trong quá trình đào tạo Llama, trong đó họ đã trải qua hơn lần lần gián đoạn không mong muốn, trung bình khoảng lần lần gián đoạn mỗi ngày. Những lần ngừng hoạt động này chủ yếu là do sự cố phần cứng, chẳng hạn như lỗi GPU hoặc phần cứng máy chủ. Điều này dẫn đến việc sử dụng GPU của họ chỉ ở mức 38-43%. Hiệu suất của OpenAI trong quá trình đào tạo GPT-4 thậm chí còn kém hơn, chỉ 32-36%, nguyên nhân cũng là do thường xuyên gặp lỗi trong quá trình đào tạo.

Nói cách khác, các phòng thí nghiệm front-end vẫn phải vật lộn để đạt được mức sử dụng 40% khi đào tạo trong một hoàn cảnh được tối ưu hóa hoàn toàn bao gồm hệ thống phần cứng, mạng, nguồn và làm mát đồng nhất, hiện đại. Điều này chủ yếu là do lỗi phần cứng và sự cố mạng, vốn càng trở nên trầm trọng hơn trong hoàn cảnh đào tạo biên vì thiết bị có sự mất cân bằng về sức mạnh xử lý, băng thông, độ trễ và độ tin cậy. Chưa kể, các mạng phi tập trung rất dễ bị tấn công bởi những tác nhân độc hại, những kẻ có thể cố gắng làm gián đoạn dự án tổng thể hoặc gian lận khối lượng công việc cụ thể vì nhiều lý do. Ngay cả SETI@home, một mạng lưới tình nguyện thuần túy, cũng đã chứng kiến nhiều người tham gia gian lận.

Thứ ba, đào tạo mô hình front-end đòi hỏi sức mạnh tính toán quy mô lớn. Mặc dù các dự án như SETI và Folding đã đạt được quy mô ấn tượng nhưng chúng vẫn kém cỏi so với sức mạnh tính toán cần thiết cho hoạt động đào tạo front-end ngày nay. GPT-4 đã được huấn luyện trên cụm 20.000 chiếc A100 và đạt được thông lượng cao nhất là 6,28 ExaFLOPS với độ chính xác chỉ bằng một nửa. Đây là sức mạnh tính toán cao gấp ba lần so với Folding@home ở thời kỳ đỉnh cao.

Llama 405b sử dụng 16.000 H100 để huấn luyện, với thông lượng cao nhất là 15,8 ExaFLOPS, gấp 7 lần đỉnh Folding. Khoảng cách này sẽ chỉ mở rộng hơn nữa khi nhiều phòng thí nghiệm có kế hoạch xây dựng các cụm trên 100.000 H100, mỗi cụm có khả năng đạt tới 99 ExaFLOPS đáng kinh ngạc.

Điều này có ý nghĩa vì dự án @home là do tình nguyện viên điều hành. Những người đóng góp quyên góp bộ nhớ và chu trình xử lý của họ và chịu các chi phí liên quan. Điều này đương nhiên giới hạn quy mô của chúng so với các dự án thương mại.

những phát triển gần đây

Mặc dù những vấn đề này lịch sử đã gây khó khăn cho các nỗ lực đào tạo phi tập trung nhưng chúng dường như không còn có thể vượt qua được nữa. Các công nghệ đào tạo mới đã xuất hiện giúp giảm nhu cầu liên lạc giữa nút, cho phép đào tạo hiệu quả trên các thiết bị kết nối Internet.

Nhiều công nghệ trong số này bắt nguồn từ các phòng thí nghiệm lớn muốn tăng quy mô lớn hơn cho hoạt động đào tạo mô hình và do đó yêu cầu công nghệ truyền thông hiệu quả giữa các trung tâm dữ liệu. Chúng tôi cũng đang chứng kiến sự tiến bộ trong phương pháp đào tạo có khả năng chịu lỗi và hệ thống khích lệ crypto phương pháp thể hỗ trợ đào tạo quy mô lớn hơn trong hoàn cảnh biên.

Công nghệ truyền thông hiệu quả

DiLoCo là nghiên cứu gần đây của Google nhằm giảm chi phí liên lạc bằng cách thực hiện tối ưu hóa cục bộ trước khi chuyển trạng thái mô hình đã cập nhật giữa các thiết bị. Phương pháp của họ (dựa trên nghiên cứu học tập liên kết trước đó) cho thấy kết quả tương đương với đào tạo đồng bộ truyền thống trong khi giảm lượng giao tiếp giữa nút xuống hệ số 500.

Phương pháp này đã được các nhà nghiên cứu khác nhân rộng và mở rộng để huấn luyện các mô hình lớn hơn (hơn 1 tỷ mồi). Nó cũng mở rộng bộ này sang đào tạo không đồng bộ, nghĩa là nút có thể chia sẻ các cập nhật độ dốc vào các thời điểm khác nhau thay vì tất cả cùng một lúc. Điều này phù hợp hơn với phần cứng biên với khả năng xử lý và tốc độ mạng khác nhau.

Phương pháp song song dữ liệu khác, chẳng hạn như lo-fi và DisTrO, nhằm mục đích giảm hơn nữa chi phí truyền thông. Lo-fi đề xuất một phương pháp tinh chỉnh hoàn toàn cục bộ, có nghĩa là nút được huấn luyện độc lập và chỉ có tỷ trọng mới được chuyển vào cuối. Phương pháp này đạt được hiệu suất tương đương với đường cơ sở khi tinh chỉnh các mô hình ngôn ngữ với hơn 1 tỷ đối số đồng thời loại bỏ hoàn toàn chi phí giao tiếp.

Trong một báo cáo sơ bộ, DisTrO tuyên bố sẽ sử dụng một trình tối ưu hóa phi tập trung mới mà họ cho rằng có thể giảm yêu cầu liên lạc từ 4 đến 5 bậc độ lớn, mặc dù phương pháp này vẫn chưa được xác nhận.

Phương pháp song song mô hình mới cũng đã xuất hiện, giúp đạt được quy mô lớn hơn. DiPaCo (cũng của Google) chia mô hình thành nhiều mô-đun, mỗi mô-đun chứa các mô-đun chuyên gia khác nhau để tạo điều kiện đào tạo cho nhiệm vụ cụ thể. Dữ liệu huấn luyện sau đó được phân chia theo "đường dẫn", là các chuỗi chuyên gia tương ứng với từng mẫu dữ liệu.

Với một phân đoạn, mỗi nhân viên có thể đào tạo một đường dẫn cụ thể gần như độc lập, ngoại trừ giao tiếp cần thiết để chia sẻ các mô-đun do DiLoCo xử lý. Kiến trúc này giúp giảm hơn một nửa thời gian đào tạo của mô hình tỷ nguyên tố.

Song song SWARM và Đào tạo phi tập trung các mô hình cơ bản trong hoàn cảnh không đồng nhất (DTFMHE) cũng đề xuất phương pháp song song mô hình để đạt được đào tạo mô hình lớn trong hoàn cảnh không đồng nhất. SWARM nhận thấy rằng khi kích thước mô hình tăng lên, các hạn chế về giao tiếp song song trong đường ống giảm xuống, giúp đào tạo các mô hình lớn hơn một cách hiệu quả ở băng thông mạng thấp hơn và độ trễ cao hơn.

Để áp dụng khái niệm này trong một hoàn cảnh không đồng nhất, họ sử dụng các "đường ống" tạm thời giữa nút có thể được cập nhật nhanh chóng sau lần lần lặp. Điều này cho phép nút phân phối đầu ra của nó tới bất kỳ nút ngang hàng nào trong giai đoạn quy trình tiếp theo.

Điều này có nghĩa là nếu một nút nhanh hơn nút hoặc nếu bất kỳ người tham gia nào bị ngắt kết nối, thì đầu ra có thể được định tuyến lại một cách linh hoạt để đảm bảo quá trình đào tạo tiếp tục miễn là có ít nhất một người tham gia tích cực trong mỗi giai đoạn. Họ đã sử dụng phương pháp này để đào tạo một mô hình có hơn 1 tỷ tài liệu tham khảo về các GPU không đồng nhất giá thành thấp với khả năng kết nối chậm (như minh họa trong hình ảnh bên dưới).

DTFMHE cũng đề xuất một thuật toán lập lịch mới, cũng như song song đường ống và song song dữ liệu, để đào tạo các mô hình lớn trên các thiết bị ở 3 châu lục. Mặc dù tốc độ mạng của họ chậm hơn 100 lần so với Deepspeed tiêu chuẩn nhưng phương pháp của họ chỉ chậm hơn 1,7-3,5 lần so với việc sử dụng Deepspeed tiêu chuẩn trong trung tâm dữ liệu. Tương tự như SWARM, DTFMHE cho thấy chi phí truyền thông có thể được ẩn đi một cách hiệu quả khi kích thước mô hình tăng lên, ngay cả trong các mạng phân tán về mặt địa lý. Điều này cho phép chúng tôi khắc phục các kết nối yếu giữa nút thông qua các kỹ thuật khác nhau, bao gồm tăng kích thước của các lớp ẩn và thêm nhiều lớp hơn cho mỗi giai đoạn đường ống.

khả năng chịu lỗi

Nhiều phương pháp song song dữ liệu được mô tả ở trên có khả năng chịu lỗi theo mặc định vì mỗi nút lưu trữ toàn bộ mô hình trong bộ nhớ. Sự dư thừa này thường có nghĩa là nút vẫn có thể hoạt động độc lập ngay cả khi nút khác bị lỗi. Điều này rất quan trọng đối với việc đào tạo phi tập trung vì nút thường không đáng tin cậy, không đồng nhất và thậm chí có thể hoạt động độc hại. Tuy nhiên, như đã đề cập trước đó, phương pháp song song dữ liệu thuần túy chỉ phù hợp với các mô hình nhỏ hơn, do đó kích thước mô hình bị hạn chế bởi dung lượng bộ nhớ của nút nhỏ nhất trong mạng.

Để giải quyết các vấn đề trên, một số người đã đề xuất các kỹ thuật chịu lỗi phù hợp cho việc huấn luyện song song mô hình (hoặc song song lai). SWARM ứng phó với các lỗi nút ngang hàng bằng cách ưu tiên nút hàng ổn định với độ trễ thấp hơn và định tuyến lại nhiệm vụ trong các giai đoạn quy trình trong trường hợp xảy ra lỗi. Phương pháp khác, chẳng hạn như Oobleck, thực hiện phương pháp tương tự bằng cách thiết lập nhiều "mẫu quy trình" để cung cấp khả năng dự phòng nhằm ứng phó với các lỗi nút một phần. Mặc dù đã được thử nghiệm trong các trung tâm dữ liệu, phương pháp của Oobleck mang lại sự đảm bảo về độ tin cậy mạnh mẽ, áp dụng như nhau cho hoàn cảnh phi tập trung .

Chúng tôi cũng thấy một số kiến trúc mô hình mới (chẳng hạn như Hỗn hợp chuyên gia phi tập trung (DMoE)) để hỗ trợ đào tạo khả năng chịu lỗi trong hoàn cảnh phi tập trung . Tương tự như các mô hình kết hợp chuyên gia truyền thống, DMoE bao gồm nhiều mạng "chuyên gia" độc lập được phân bổ trên một tập hợp nút công nhân.

DMoE sử dụng bảng băm phân tán để theo dõi và tích hợp các bản cập nhật không đồng bộ phi tập trung. Cơ chế này (cũng được sử dụng trong SWARM) có khả năng chống lại các lỗi nút rất tốt, vì nó có thể loại trừ một số chuyên gia nhất định khỏi tính toán trung bình nếu một số nút không thành công hoặc không phản hồi kịp thời.

tỉ lệ

Cuối cùng, các hệ thống khích lệ crypto như hệ thống được Bitcoin và Ethereum sử dụng có thể giúp đạt được quy mô cần thiết. Cả hai mạng đều huy động vốn từ cộng đồng cho máy tính của mình bằng cách trả tiền cho những người đóng góp một tài sản gốc có giá trị tăng khi việc áp dụng tăng trưởng . Thiết kế này khích lệ những người đóng góp sớm bằng cách trao cho họ những phần thưởng hào phóng, phần thưởng này có thể giảm dần khi mạng đạt đến quy mô khả thi tối thiểu.

Thật vậy, có nhiều cạm bẫy khác nhau cần phải tránh với cơ chế này. Cạm bẫy trong đó là khích lệ quá mức nguồn cung mà không tạo ra nhu cầu tương ứng. Ngoài ra, điều này có thể gây ra các vấn đề về quy định nếu mạng cơ bản không phi tập trung . Tuy nhiên, khi được thiết kế hợp lý, các hệ thống khích lệ phi tập trung có thể đạt được quy mô đáng kể trong một khoảng thời gian dài.

Ví dụ: mức tiêu thụ năng lượng hàng năm Bitcoin là khoảng 150 terawatt giờ (TWh), cao hơn hai bậc so với mức tiêu thụ năng lượng của cụm đào tạo AI lớn nhất hiện được hình thành (100.000 H100 được thực thi ở mức đầy tải trong một năm).

Để tham khảo, GPT-4 của OpenAI đã được đào tạo trên 20.000 chiếc A100 và mẫu Llama 405B hàng đầu của Meta đã được huấn luyện trên 16.000 chiếc H100. Tương tự như vậy, vào thời kỳ đỉnh cao, mức tiêu thụ điện năng của Ethereum là khoảng 70 TWh, trải rộng trên hàng triệu GPU. Ngay cả khi cho phép các trung tâm dữ liệu AI tăng trưởng nhanh chóng trong những năm tới, các mạng điện toán khích lệ như thế này sẽ vượt qua quy mô của chúng lần .

Tất nhiên, không phải tất cả các tính toán đều có thể thay thế được và việc đào tạo có những yêu cầu riêng liên quan đến khai thác cần được xem xét. Tuy nhiên, các mạng này cho thấy quy mô có thể đạt được thông qua các cơ chế này.

Con đường phía trước

Buộc những mảnh này lại với nhau, chúng ta có thể thấy sự khởi đầu của một con đường mới phía trước.

Chẳng bao lâu nữa, các công nghệ đào tạo mới sẽ cho phép chúng ta vượt ra khỏi giới hạn của các trung tâm dữ liệu vì các thiết bị không còn cần phải đặt cùng vị trí để hoạt động hiệu quả nữa. Việc này sẽ mất thời gian vì phương pháp đào tạo phi tập trung hiện tại của chúng tôi vẫn ở quy mô nhỏ hơn, chủ yếu nằm trong khoảng từ 1 tỷ đến 2 tỷ trích dẫn, nhỏ hơn nhiều so với các mô hình như GPT-4.

Cần có những đột phá hơn nữa để tăng quy mô của phương pháp này mà không làm mất đi các đặc tính chính như hiệu quả truyền thông và khả năng chịu lỗi. Hoặc chúng ta cần các kiến trúc mô hình mới khác với các mô hình nguyên khối lớn ngày nay - có thể nhỏ hơn, nhiều mô-đun hơn và được thực thi trên các thiết bị biên thay vì trên đám mây

Trong mọi trường hợp, thật hợp lý khi mong đợi sự tiến bộ hơn nữa theo hướng này. Chi phí cho phương pháp hiện tại của chúng tôi là không bền vững, điều này tạo ra động lực thị trường mạnh mẽ cho sự đổi mới. Chúng ta đã nhìn thấy xu hướng này khi các nhà sản xuất như Apple xây dựng các thiết bị biên mạnh mẽ hơn để thực hiện nhiều khối lượng công việc cục bộ hơn thay vì dựa vào đám mây.

Chúng tôi cũng nhận thấy sự hỗ trợ ngày càng tăng đối với các giải pháp mã nguồn mở- ngay cả trong các công ty như Meta, để thúc đẩy nghiên cứu và phát triển phi tập trung hơn. Những xu hướng này sẽ chỉ tăng tốc theo thời gian.

Đồng thời, chúng ta cũng cần cơ sở hạ tầng mạng mới để kết nối các thiết bị biên để có thể sử dụng chúng theo cách này. Những thiết bị này bao gồm máy tính xách tay, máy tính để bàn chơi game và thậm chí có thể cả điện thoại di động có card đồ họa hiệu suất cao và dung lượng bộ nhớ lớn.

Điều này sẽ cho phép chúng tôi xây dựng một "cụm toàn cầu" về sức mạnh tính toán luôn hoạt động, chi phí thấp, có thể xử lý song song nhiệm vụ đào tạo. Đây cũng là một vấn đề đầy thách thức đòi hỏi sự tiến bộ trong nhiều lĩnh vực.

Chúng ta cần các kỹ thuật lập kế hoạch tốt hơn để đào tạo trong hoàn cảnh không đồng nhất. Hiện tại không có phương pháp để tự động song song hóa một mô hình để tối ưu hóa, đặc biệt khi các thiết bị có thể bị ngắt kết nối hoặc kết nối bất kỳ lúc nào. Đây là bước quan trọng tiếp theo trong việc tối ưu hóa hoạt động đào tạo trong khi vẫn duy trì được lợi thế về quy mô của các mạng dựa trên biên.

Chúng tôi cũng phải giải quyết sự phức tạp chung của các mạng phi tập trung. Để tối đa hóa quy mô, web phải được xây dựng dưới dạng giao thức mở—một bộ tiêu chuẩn và hướng dẫn chi phối sự tương tác giữa những người tham gia, như TCP/IP nhưng dành cho điện toán máy học. Điều này sẽ cho phép mọi thiết bị tuân thủ các thông số kỹ thuật nhất định có thể kết nối với mạng, bất kể chủ sở hữu và vị trí. Nó cũng đảm bảo rằng mạng vẫn ở trạng thái trung lập, cho phép người dùng đào tạo các mô hình mà họ thích.

Mặc dù điều này tối đa hóa quy mô nhưng nó cũng yêu cầu một cơ chế để xác minh tính chính xác của tất cả nhiệm vụ đào tạo mà không cần dựa vào một thực thể duy nhất. Điều này rất quan trọng vì có những động cơ cố hữu để gian lận - ví dụ: tuyên bố đã hoàn thành nhiệm vụ đào tạo để được trả tiền nhưng thực tế không phải làm như vậy. Điều này đặc biệt khó khăn vì các bản cài đặt khác nhau thường thực hiện các hoạt động học máy khác nhau, gây khó khăn cho việc xác minh tính chính xác bằng các kỹ thuật sao chép tiêu chuẩn. Để giải quyết chính xác vấn đề này đòi hỏi phải nghiên cứu chuyên sâu về mật mã và các ngành khác.

May mắn thay, chúng tôi tiếp tục nhận thấy sự tiến bộ trên tất cả các mặt trận này. Những thách thức này dường như không còn là không thể vượt qua so với những năm trước. Họ cũng nhạt nhòa so với những cơ hội. Google tóm tắt điều này tốt nhất trong bài báo DiPaCo của họ, chỉ ra cơ chế phản hồi tiêu cực mà đào tạo phi tập trung có khả năng bị phá vỡ:

Những tiến bộ trong việc đào tạo phi tập trung các mô hình học máy có thể tạo điều kiện thuận lợi cho việc xây dựng cơ sở hạ tầng đơn giản hóa, cuối cùng dẫn đến nguồn tài nguyên máy tính sẵn có rộng rãi hơn. Hiện tại, cơ sở hạ tầng được thiết kế dựa trên phương pháp tiêu chuẩn để đào tạo các mô hình nguyên khối lớn và các mô hình học máy được thiết kế để tận dụng cơ sở hạ tầng và phương pháp đào tạo hiện tại. Vòng phản hồi này có thể khiến cộng đồng rơi vào tình trạng sai lệch mức tối thiểu trong khu vực, nơi tài nguyên máy tính bị hạn chế hơn mức thực sự cần thiết.

Có lẽ điều thú vị nhất là sự nhiệt tình ngày càng tăng trong cộng đồng nghiên cứu nhằm giải quyết những câu hỏi này. Đội ngũ của chúng tôi tại Gensyn đang xây dựng cơ sở hạ tầng mạng được mô tả ở trên. Đội ngũ như Hivemind và BigScience áp dụng nhiều kỹ thuật này vào thực tế.

Các dự án như Petals, sahajBERT và Bloom chứng tỏ khả năng của những công nghệ này cũng như mối quan tâm tăng trưởng đối với việc học máy dựa vào cộng đồng . Nhiều người khác cũng đang thúc đẩy nghiên cứu với mục tiêu xây dựng một hệ sinh thái đào tạo mô hình hợp tác và cởi mở hơn. Nếu bạn quan tâm đến công việc này, vui lòng liên hệ với chúng tôi để trong đó.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan