Công nghệ đào tạo và suy luận AI: Từ Silicon đến Sentience

Bài viết này được dịch máy
Xem bản gốc

Sự tiến bộ nhanh chóng của trí tuệ nhân tạo được hỗ trợ bởi một cơ sở hạ tầng công nghệ phức tạp. Bộ công nghệ AI này, một kiến ​​trúc phân lớp của phần cứng và phần mềm, tạo thành xương sống của cuộc cách mạng AI ngày nay. Ở đây, chúng tôi đi sâu vào các lớp chính của bộ công nghệ và giải thích cách mỗi lớp đóng góp vào quá trình phát triển và triển khai AI. Cuối cùng, chúng tôi sẽ suy ngẫm về tầm quan trọng của việc hiểu các nguyên mẫu này trong bối cảnh đánh giá các cơ hội trong giao điểm tiền điện tử và AI, đặc biệt là các dự án DePin (cơ sở hạ tầng vật lý phi tập trung) như mạng GPU.

Lớp phần cứng: Nền tảng Silicon

Nền tảng ở đây chính là phần cứng, sức mạnh tính toán vật lý thúc đẩy AI.

CPU (Bộ xử lý trung tâm) là bộ xử lý nền tảng trong điện toán. Chúng vượt trội trong các tác vụ tuần tự và rất quan trọng đối với điện toán mục đích chung, bao gồm xử lý dữ liệu trước, tác vụ AI quy mô nhỏ và phối hợp các thành phần khác.

GPU (Bộ xử lý đồ họa) ban đầu được thiết kế để dựng hình đồ họa, GPU đã trở nên thiết yếu đối với AI do khả năng thực hiện nhiều phép tính đơn giản cùng lúc. Khả năng xử lý song song này khiến chúng trở nên lý tưởng để đào tạo các mô hình học sâu và nếu không có sự tiến bộ trong GPU, GPT hiện đại sẽ không thể thực hiện được.

AI Accelerators là chip chuyên dụng được thiết kế riêng cho khối lượng công việc AI. Chúng tối ưu hóa các hoạt động AI phổ biến, mang lại hiệu suất cao và hiệu quả năng lượng cho cả nhiệm vụ đào tạo và suy luận.

FPGA (Field-Programmable Gate Arrays) cung cấp tính linh hoạt thông qua bản chất có thể lập trình lại của chúng. Chúng có thể được tối ưu hóa cho các tác vụ AI cụ thể, đặc biệt là trong các tình huống suy luận mà độ trễ thấp là rất quan trọng.

Phần mềm cấp thấp: Các trung gian

Lớp công nghệ AI này rất quan trọng vì nó thu hẹp khoảng cách giữa các khuôn khổ AI cấp cao và phần cứng cơ bản. CUDA, ROCm, OneAPI và SNPE tạo điều kiện thuận lợi cho sự tiếp xúc giữa các khuôn khổ cấp cao và kiến ​​trúc phần cứng cụ thể, cho phép tối ưu hóa hiệu suất.

CUDA , lớp phần mềm độc quyền của NVIDIA, là nền tảng cho sự trỗi dậy đáng chú ý của công ty trên thị trường phần cứng AI. Sự thống trị của NVIDIA không chỉ là chức năng của phần cứng vượt trội, mà còn là minh chứng cho sức mạnh của hiệu ứng mạng đối với phần mềm và sự tích hợp hệ sinh thái của công ty.

Ảnh hưởng của CUDA xuất phát từ sự ăn sâu vào công nghệ AI, cung cấp một loạt các thư viện được tối ưu hóa đã trở thành tiêu chuẩn thực tế trong lĩnh vực này. Hào quang phần mềm này đã tạo ra một hiệu ứng mạng lưới đáng gờm: các nhà nghiên cứu và nhà phát triển AI, những người thành thạo CUDA trong quá trình đào tạo của họ, truyền bá việc sử dụng nó trong cả học viện và ngành công nghiệp.

Vòng tuần hoàn tích cực này củng cố vị thế dẫn đầu thị trường của NVIDIA, vì hệ sinh thái các công cụ và thư viện dựa trên CUDA ngày càng trở nên không thể thiếu đối với các chuyên gia AI.

Sự cộng sinh giữa phần mềm và phần cứng này không chỉ củng cố vị thế tiên phong của NVIDIA trong lĩnh vực điện toán AI mà còn mang lại cho công ty sức mạnh định giá đáng kể, một kỳ tích hiếm có trên thị trường phần cứng vốn thường được coi là hàng hóa thông thường.

Sự thống trị của CUDA và sự mơ hồ tương đối của các đối thủ cạnh tranh có thể là do sự kết hợp của nhiều yếu tố đã tạo ra những rào cản đáng kể để gia nhập. Lợi thế của người đi đầu của NVIDIA trong không gian điện toán tăng tốc bằng GPU đã cho phép CUDA thiết lập một hệ sinh thái mạnh mẽ trước khi các đối thủ có thể giành được chỗ đứng. Mặc dù một số đối thủ cạnh tranh như AMD và Intel có phần cứng tuyệt vời, nhưng lớp phần mềm của họ lại thiếu các thư viện, công cụ và không tích hợp liền mạch với ngăn xếp công nghệ hiện có, đó là lý do tại sao có một khoảng cách lớn giữa NVIDIA/CUDA và bất kỳ đối thủ cạnh tranh nào khác.

Biên dịch: Các biên dịch viên

TVM (Máy ảo Tensor), MLIR (Biểu diễn trung gian đa cấp) và PlaidML cung cấp những cách tiếp cận riêng biệt để giải quyết thách thức tối ưu hóa khối lượng công việc AI trên nhiều kiến ​​trúc phần cứng khác nhau.

TVM, ra đời từ nghiên cứu tại Đại học Washington, đã nhanh chóng thu hút được sự chú ý vì khả năng tối ưu hóa các mô hình học sâu cho nhiều loại thiết bị, từ GPU hiệu suất cao đến các thiết bị biên hạn chế tài nguyên. Điểm mạnh của nó nằm ở quy trình tối ưu hóa đầu cuối, đã được chứng minh là đặc biệt hiệu quả trong các tình huống suy luận . Nó hoàn toàn trừu tượng hóa sự khác biệt của các nhà cung cấp và phần cứng cơ bản sao cho khối lượng công việc suy luận có thể được chạy liền mạch trên phần cứng không đồng nhất, từ các thiết bị NVIDIA đến AMD, Intel, ETC

Tuy nhiên, ngoài suy luận, mọi thứ trở nên phức tạp hơn. Chén thánh — máy tính Có thể hoán đổi cho đào tạo AI — vẫn chưa được giải quyết. Tuy nhiên, có một vài sáng kiến ​​đáng đề cập trong bối cảnh này.

MLIR, dự án của Google, có cách tiếp cận cơ bản hơn. Bằng cách cung cấp một biểu diễn trung gian thống nhất cho nhiều cấp độ trừu tượng, dự án này hướng đến việc hợp lý hóa toàn bộ cơ sở hạ tầng trình biên dịch, hướng đến cả các trường hợp sử dụng suy luận và đào tạo.

PlaidML, hiện đang do Intel lãnh đạo, tự định vị mình là một ứng cử viên sáng giá trong cuộc đua này. Trọng tâm của công ty là khả năng di động trên nhiều kiến ​​trúc phần cứng khác nhau, bao gồm cả những kiến ​​trúc vượt ra ngoài các bộ tăng tốc AI truyền thống, hướng đến tương lai nơi khối lượng công việc AI có mặt ở khắp các nền tảng điện toán.

Nếu bất kỳ trình biên dịch nào trong số này được tích hợp tốt vào ngăn xếp công nghệ sao cho không làm ảnh hưởng đến hiệu suất mô hình và không yêu cầu bất kỳ sửa đổi bổ sung nào ở phía nhà phát triển, thì những sáng kiến ​​này có thể gây nguy hiểm cho hào nước của CUDA bằng cách cung cấp nền tảng chung cho nhiều khuôn khổ AI và phần cứng phụ trợ khác nhau. Tuy nhiên, hiện tại, MLIR và PlaidML chưa đủ trưởng thành và chưa được tích hợp tốt vào ngăn xếp công nghệ AI, do đó chúng không phải là mối đe dọa rõ ràng đối với sự thống trị của CUDA.

Máy tính phân tán: Các nhà điều phối

Ray và Horovod đại diện cho hai cách tiếp cận riêng biệt đối với điện toán phân tán trong bối cảnh AI, mỗi cách đều giải quyết nhu cầu quan trọng về khả năng xử lý có thể mở rộng trong các ứng dụng AI quy mô lớn.

Ray, được phát triển bởi RISELab của UC Berkeley, là một khuôn khổ điện toán phân tán đa năng. Nó nổi trội về tính linh hoạt, cho phép phân phối nhiều loại khối lượng công việc khác nhau ngoài việc chỉ học máy. Mô hình dựa trên diễn viên của Ray cho phép các nhà phát triển dễ dàng song song hóa mã Python, khiến nó đặc biệt hữu ích cho việc học tăng cường và các tác vụ AI khác đòi hỏi quy trình làm việc phức tạp, không đồng nhất.

Horovod, ban đầu được Uber phát triển, tập trung cụ thể vào học sâu phân tán. Nó cung cấp một cách đơn giản, hiệu quả để mở rộng quy mô đào tạo học sâu trên nhiều GPU và nút. Điểm mạnh của Horovod nằm ở tính dễ sử dụng và tối ưu hóa hiệu suất cho đào tạo song song dữ liệu của mạng nơ-ron. Nó tích hợp liền mạch với TensorFlow, PyTorch và các khuôn khổ chính khác, cho phép các nhà phát triển phân phối các tập lệnh đào tạo hiện có của họ với các thay đổi mã tối thiểu.

Suy nghĩ kết thúc: Góc nhìn về tiền điện tử

Việc tích hợp với các ngăn xếp AI hiện có thực sự rất quan trọng đối với các dự án DePin nhằm mục đích xây dựng các hệ thống điện toán phân tán. Việc tích hợp đảm bảo khả năng tương thích với các quy trình công việc và công cụ AI hiện tại, giúp giảm rào cản áp dụng.

Trạng thái hiện tại của các mạng GPU trong không gian tiền điện tử, về cơ bản hoạt động như các nền tảng cho thuê GPU phi tập trung, đại diện cho một bước tiến ban đầu hướng tới cơ sở hạ tầng AI phân tán tinh vi hơn. Thay vì hoạt động như một đám mây phân tán, các mạng hiện tại giống với một thị trường Airbnb hơn. Mặc dù hữu ích cho một số ứng dụng nhất định, các nền tảng này Short hỗ trợ đào tạo phân tán thực sự, một yêu cầu quan trọng để thúc đẩy phát triển AI quy mô lớn.

Các tiêu chuẩn điện toán phân tán hiện tại như Ray và Horovod không được thiết kế với tiền đề là các mạng phân tán toàn cầu, để các mạng phi tập trung thực sự hoạt động, chúng ta cần một khuôn khổ khác ở lớp này. Những người hoài nghi thậm chí còn nói rằng Transformers không tương thích với các phương pháp đào tạo phân tán do các yêu cầu giao tiếp chuyên sâu và tối ưu hóa một chức năng toàn cầu trong quá trình học. Mặt khác, những người lạc quan đang cố gắng đưa ra các khuôn khổ điện toán phân tán mới có thể hoạt động tốt với phần cứng phân tán toàn cầu. Yotta là một trong những công ty khởi nghiệp đang cố gắng giải quyết vấn đề này.

NeuroMesh còn đi xa hơn nữa. Cách tiếp cận của họ đối với việc thiết kế lại các quy trình học máy đặc biệt sáng tạo. Bằng cách tận dụng Mạng mã hóa dự đoán (PCN) để thay thế các hàm mất mát toàn cục bằng cách giảm thiểu lỗi cục bộ, Neuromesh giải quyết được một nút thắt cơ bản trong đào tạo AI phân tán. Cách tiếp cận này không chỉ cho phép song song hóa chưa từng có mà còn dân chủ hóa đào tạo AI bằng cách làm cho nó khả thi trên phần cứng có sẵn rộng rãi hơn như GPU RTX 4090. Cụ thể, GPU 4090 có sức mạnh tính toán tương tự như H100, tuy nhiên, do thiếu băng thông nên chúng không được sử dụng nhiều trong các quy trình đào tạo. Khi PCN làm giảm tầm quan trọng của băng thông, có thể tận dụng các GPU cấp thấp hơn này, có thể tiết kiệm chi phí đáng kể và tăng hiệu quả.

GenSyn , một công ty khởi nghiệp crypto x AI đầy tham vọng khác, đã đặt mục tiêu xây dựng một bộ trình biên dịch có thể biến máy tính thành Có thể hoán đổi cho việc đào tạo AI — về cơ bản là cho phép bất kỳ loại phần cứng máy tính nào được sử dụng liền mạch cho khối lượng công việc AI. Để đưa ra một phép so sánh, TVM dùng để suy luận, GenSyn đang cố gắng xây dựng cho các quy trình đào tạo. Nếu thành công, nó có thể mở rộng đáng kể khả năng của các mạng máy tính AI phi tập trung, cho phép chúng giải quyết các tác vụ AI phức tạp và đa dạng hơn bằng cách sử dụng hiệu quả nhiều loại phần cứng. Tầm nhìn xa trông rộng này, mặc dù đầy thách thức do bản chất phức tạp của việc tối ưu hóa trên nhiều kiến ​​trúc phần cứng khác nhau và có rủi ro kỹ thuật cao, nhưng phù hợp với xu hướng rộng hơn hướng tới cơ sở hạ tầng AI linh hoạt và có khả năng mở rộng hơn. Nếu họ thực hiện tầm nhìn này, vượt qua các rào cản như duy trì hiệu suất trên các hệ thống không đồng nhất, công nghệ này có thể làm suy yếu hào nước của CUDA và NVIDIA bằng cách cung cấp một giải pháp thay thế không phụ thuộc vào phần cứng cho việc đào tạo AI.

Về mặt suy luận: Cách tiếp cận của Hyperbolic , kết hợp suy luận có thể xác minh với mạng lưới phi tập trung của các tài nguyên tính toán không đồng nhất, minh họa cho chiến lược thực dụng này. Bằng cách tận dụng các tiêu chuẩn biên dịch như TVM, Hyperbolic có thể khai thác nhiều cấu hình phần cứng trong khi vẫn duy trì hiệu suất và độ tin cậy. Nó có thể tổng hợp chip từ nhiều nhà cung cấp (từ NVIDIA, đến AMD, Intel, ETC), cả phần cứng cấp độ người tiêu dùng và hiệu suất cao.

Những phát triển này trong giao điểm crypto-AI gợi ý một tương lai mà tính toán AI có thể trở nên phân tán hơn, hiệu quả hơn và dễ tiếp cận hơn. Sự thành công của các dự án này sẽ không chỉ phụ thuộc vào giá trị kỹ thuật của chúng mà còn phụ thuộc vào khả năng tích hợp liền mạch với các quy trình làm việc AI hiện có và giải quyết các mối quan tâm thực tế của các chuyên gia và doanh nghiệp AI.


AI Training and Inference Tech Stack: From Silicon to Sentience ban đầu được xuất bản trên IOSG Ventures trên Trung bình, nơi mọi người tiếp tục cuộc trò chuyện bằng cách làm nổi bật và phản hồi câu chuyện này.

Medium
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
3
Thêm vào Yêu thích
3
Bình luận