Khung tác nhân AI có phải là mảnh ghép cuối cùng? Làm thế nào để giải thích "lưỡng tính sóng-hạt" của khung?

avatar
ODAILY
01-04
Bài viết này được dịch máy
Xem bản gốc

Tác giả bài viết: Kevin, Nhà nghiên cứu tại BlockBooster

Khung AI Agent có thể ẩn chứa tiềm năng kép để thúc đẩy ứng dụng công nghệ và trưởng thành của hệ sinh thái. Các khung được thảo luận sôi nổi trên thị trường bao gồm: Eliza, Rig, Swarms, ZerePy, v.v. Những khung này thu hút các nhà phát triển thông qua Kho lưu trữ Github và xây dựng uy tín. Tương tự như việc phát hành "token" dưới dạng "thư viện", các khung này kết hợp đặc tính của sóng và hạt, vừa có tính chất nghiêm túc bên ngoài vừa có đặc tính của Memecoin. Bài viết này sẽ giải mã "tính lưỡng tính sóng-hạt" của các khung Agent và lý do tại sao chúng có thể trở thành mảnh ghép cuối cùng.

Tính ngoại vi của khung Agent có thể để lại những chồi non sau khi bong bóng tan vỡ

Kể từ khi GOAT ra đời, sức ảnh hưởng của kịch bản Agent trên thị trường ngày càng tăng, như một cao thủ võ thuật, với cú đấm "Memecoin" bên trái và bàn tay "hy vọng ngành" bên phải, bạn sẽ bị đánh bại bởi một trong những đòn đó. Thực ra, phạm vi ứng dụng của AI Agent không được phân biệt rõ ràng, ranh giới giữa nền tảng, khung và ứng dụng cụ thể mờ nhạt, nhưng vẫn có thể phân loại sơ bộ dựa trên sở thích của token hoặc giao thức:

  • Launchpad: Nền tảng phát hành tài sản. Virtuals Protocol và clanker trên chuỗi Base, Dasha trên chuỗi Solana.

  • Ứng dụng AI Agent: Nằm giữa Agent và Memecoin, nổi bật ở cấu hình bộ nhớ, ví dụ như GOAT, aixbt, v.v. Những ứng dụng này thường chỉ là đầu ra một chiều, với điều kiện đầu vào rất hạn chế.

  • Động cơ AI Agent: griffain trên chuỗi Solana và Spectre AI trên chuỗi Base. griffain có thể tiến hóa từ chế độ đọc/ghi sang chế độ đọc, ghi và hành động; Spectre AI là động cơ RAG, tìm kiếm trên chuỗi.

  • Khung AI Agent: Đối với các nền tảng khung, Agent chính là tài sản, vì vậy khung Agent là nền tảng phát hành tài sản của Agent, là Launchpad của Agent. Các dự án tiêu biểu hiện tại là ai 16, Zerebro, ARC và Swarms đang được thảo luận sôi nổi gần đây.

  • Các hướng khác: Tổng hợp Agent Simmi; Giao thức AgentFi Mode; Agent Seraph loại bỏ; Tạo tác vụ API thời gian thực Agent Creator.Bid.

Thảo luận sâu hơn về khung Agent, có thể thấy nó có đủ tính ngoại vi. Khác với các nhà phát triển của các chuỗi và giao thức lớn chỉ có thể lựa chọn trong các môi trường ngôn ngữ phát triển khác nhau, quy mô tổng thể của các nhà phát triển trong ngành vẫn không tăng tương ứng với tốc độ tăng trưởng giá trị vốn hóa thị trường. Kho lưu trữ Github là nơi các nhà phát triển Web2 và Web3 xây dựng sự đồng thuận, ở đây xây dựng cộng đồng nhà phát triển, sức hút và ảnh hưởng đối với các nhà phát triển Web2 mạnh hơn nhiều so với bất kỳ "gói sẵn sàng sử dụng" nào do một giao thức riêng lẻ phát triển ra.

Bốn khung được đề cập trong bài viết này đều đã được mã nguồn mở: Khung Eliza của ai16z đạt 6.200 ngôi sao; Khung ZerePy của Zerebro đạt 191 ngôi sao; Khung RIG của ARC đạt 1.700 ngôi sao; Khung Swarms của Swarms đạt 2.100 ngôi sao. Hiện tại, khung Eliza được sử dụng rộng rãi trong các ứng dụng Agent khác nhau, là khung có phạm vi bao phủ rộng nhất. Mức độ phát triển của ZerePy không cao lắm, hướng phát triển chủ yếu ở X, chưa hỗ trợ LLM cục bộ và tích hợp bộ nhớ. RIG có độ khó phát triển tương đối cao nhất, nhưng mang lại cho các nhà phát triển tự do tối đa để tối ưu hóa hiệu suất. Ngoài việc nhóm phát hành mcs, Swarms vẫn chưa có trường hợp sử dụng khác, nhưng Swarms có thể tích hợp các khung khác, có không gian tưởng tượng lớn hơn.

Ngoài ra, trong phân loại trên, việc tách động cơ Agent và khung có thể gây ra sự nhầm lẫn. Tuy nhiên, tôi cho rằng hai thứ này khác nhau. Trước hết, tại sao lại gọi là động cơ? So sánh với động cơ tìm kiếm trong cuộc sống thực tế là tương đối phù hợp. Khác với các ứng dụng Agent đồng nhất, hiệu suất của động cơ Agent nằm ở trên chúng, nhưng lại hoàn toàn được đóng gói, chỉ có thể điều chỉnh thông qua giao diện API. Người dùng có thể trải nghiệm hiệu suất của động cơ Agent dưới dạng fork, nhưng không thể nắm bắt toàn cảnh và tùy chỉnh tự do như khi làm việc với khung cơ bản. Mỗi người dùng có động cơ của riêng họ, giống như tạo ra một bản sao của Agent đã được huấn luyện, là tương tác với bản sao đó. Còn khung thì về bản chất là để tích hợp với chuỗi, vì khi làm Agent, mục tiêu cuối cùng là tích hợp với chuỗi tương ứng, cách định nghĩa phương thức trao đổi dữ liệu, cách định nghĩa phương thức xác minh dữ liệu, cách định nghĩa kích thước khối, cách cân bằng đồng thuận và hiệu suất, đó là những vấn đề mà khung cần phải xem xét. Còn động cơ thì chỉ cần tối ưu hóa mô hình và thiết lập mối quan hệ giữa dữ liệu và bộ nhớ ở một hướng cụ thể, tiêu chí duy nhất là hiệu suất, trong khi khung thì không phải như vậy.

Xem xét khung Agent từ góc độ "tính lưỡng tính sóng-hạt" có thể là tiền đề để đảm bảo đi đúng hướng

Trong vòng đời của một lần nhập/xuất, Agent cần ba thành phần. Đầu tiên là mô hình cơ bản quyết định độ sâu và cách thức suy nghĩ, sau đó là bộ nhớ có thể tùy chỉnh, sau khi có đầu ra từ mô hình cơ bản, dựa trên bộ nhớ sẽ được chỉnh sửa, cuối cùng hoàn thành đầu ra trên các máy khách.

Nguồn: @SuhailKakar

Để chứng minh rằng khung Agent có "tính lưỡng tính sóng-hạt", "sóng" có đặc tính của "Memecoin", thể hiện văn hóa cộng đồng và mức độ hoạt động của nhà phát triển, nhấn mạnh sức hút và khả năng lan truyền của Agent; "hạt" thể hiện đặc tính của "kỳ vọng ngành", đại diện cho hiệu suất cơ bản, trường hợp sử dụng thực tế và độ sâu về mặt kỹ thuật. Tôi sẽ giải thích từ hai khía cạnh này bằng cách lấy ví dụ từ hướng dẫn phát triển của ba khung:

Khung Eliza dễ lắp ráp

1. Thiết lập môi trường

Nguồn: @SuhailKakar

2. Cài đặt Eliza

Nguồn: @SuhailKakar

3. Tệp cấu hình

Nguồn: @SuhailKakar

4. Thiết lập tính cách Agent

Nguồn: @SuhailKakar

Khung Eliza tương đối dễ sử dụng. Nó dựa trên TypeScript, ngôn ngữ mà hầu hết các nhà phát triển Web và Web3 đều quen thuộc. Khung gọn nhẹ, không quá trừu tượng, cho phép nhà phát triển dễ dàng thêm các tính năng mong muốn. Thông qua bước 3, có thể thấy Eliza có thể tích hợp nhiều máy khách, có thể hiểu nó như một bộ lắp ráp tích hợp nhiều máy khách. Eliza hỗ trợ các nền tảng như DC, TG và X, cũng như nhiều mô hình ngôn ngữ lớn, có thể thực hiện đầu vào thông qua các phương tiện truyền thông xã hội nêu trên, sử dụng mô hình LLM để đầu ra, và hỗ trợ quản lý bộ nhớ nội tại, cho phép bất kỳ nhà phát triển quen thuộc nào cũng có thể nhanh chóng triển khai AI Agent.

Nhờ tính đơn giản và sự phong phú của giao diện, Eliza đã giảm đáng kể rào cản tiếp cận và thực hiện một tiêu chuẩn giao diện tương đối thống nhất.

Khung ZerePy dễ sử dụng

1. Fork kho lưu trữ ZerePy

Nguồn: https://replit.com/@blormdev/ZerePy?v=1

2. Cấu hình X và GPT

Nguồn: https://replit.com/@blormdev/ZerePy?v=1

3. Thiết lập tính cách Agent

Nguồn: https://replit.com/@blorm

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

3. Thiết lập cấu trúc tài liệu và nhúng

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

4. Tạo vector lưu trữ và Agent RAG

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

Rig (ARC) là một khung xương xây dựng hệ thống AI dựa trên ngôn ngữ Rust, hướng đến các luồng công việc LLM, nó giải quyết các vấn đề tối ưu hóa hiệu suất ở mức độ thấp hơn, nói cách khác, ARC là một "công cụ hộp" cho các hệ thống AI, cung cấp các dịch vụ hỗ trợ nền tảng như gọi AI, tối ưu hóa hiệu suất, lưu trữ dữ liệu, xử lý ngoại lệ, v.v.

Rig giải quyết vấn đề "gọi" để giúp các nhà phát triển lựa chọn LLM tốt hơn, tối ưu hóa lời nhắc tốt hơn, quản lý Token hiệu quả hơn, và xử lý đồng thời, quản lý tài nguyên, giảm độ trễ, v.v., trọng tâm của nó là cách "sử dụng tốt" quá trình hợp tác giữa mô hình LLM AI và hệ thống Agent AI.

Rig là một thư viện Rust mã nguồn mở nhằm đơn giản hóa việc phát triển các ứng dụng được điều khiển bởi LLM (bao gồm cả Agent RAG). Do Rig có mức độ mở rộng sâu hơn, nên yêu cầu cao hơn đối với các nhà phát triển, đòi hỏi hiểu biết sâu hơn về Rust và Agent.

  • Giao diện LLM thống nhất: Hỗ trợ API nhất quán cho các nhà cung cấp LLM khác nhau, đơn giản hóa tích hợp.

  • Luồng công việc trừu tượng: Các thành phần có sẵn được mô-đun hóa cho phép Rig xử lý các hệ thống AI phức tạp.

  • Tích hợp vector lưu trữ: Hỗ trợ lưu trữ vector tích hợp, cung cấp hiệu suất cao trong các Agent tìm kiếm tương tự như RAG Agent.

  • Nhúng linh hoạt: Cung cấp API dễ sử dụng để xử lý nhúng, giảm độ phức tạp về ngữ nghĩa trong quá trình phát triển các Agent tìm kiếm tương tự như RAG Agent.

Có thể thấy so với Eliza, Rig cung cấp cho các nhà phát triển thêm không gian tối ưu hóa hiệu suất, giúp họ gỡ lỗi và tối ưu hóa việc gọi LLM và hợp tác Agent tốt hơn. Rig được điều khiển bởi hiệu suất của Rust, tận dụng các ưu điểm của Rust về trừu tượng không có chi phí và an toàn bộ nhớ, vận hành LLM với hiệu suất cao và độ trễ thấp. Nó có thể cung cấp nhiều tự do hơn ở cấp độ cơ sở.

Phân tách và kết hợp khung Swarms

Swarms nhằm mục đích cung cấp một khung công nghiệp đa Agent ở mức sản xuất, trang web của họ cung cấp hàng chục workflow và kiến trúc Agent song song và tuần tự, ở đây giới thiệu một phần nhỏ.

Luồng công việc tuần tự

Nguồn: https://docs.swarms.world

Kiến trúc Swarm tuần tự xử lý các nhiệm vụ theo thứ tự tuyến tính. Mỗi Agent hoàn thành nhiệm vụ của mình trước khi chuyển kết quả cho Agent tiếp theo trong chuỗi. Kiến trúc này đảm bảo xử lý có thứ tự và rất hữu ích khi các nhiệm vụ có mối quan hệ phụ thuộc.

Trường hợp sử dụng:

  • Mỗi bước trong quy trình công việc phụ thuộc vào bước trước đó, chẳng hạn như dây chuyền lắp ráp hoặc xử lý dữ liệu tuần tự.

  • Các tình huống yêu cầu tuân thủ nghiêm ngặt thứ tự hoạt động.

Kiến trúc phân cấp:

Nguồn: https://docs.swarms.world

Thực hiện kiểm soát từ trên xuống, trong đó Agent cấp trên phối hợp các Agent cấp dưới. Ở đây, các Agent cùng thực hiện nhiệm vụ và sau đó phản hồi kết quả vào vòng lặp để tổng hợp cuối cùng. Điều này rất hữu ích đối với các nhiệm vụ có thể song song hóa cao.

Kiến trúc bảng tính:

Nguồn: https://docs.swarms.world

Dùng để quản lý các đại lý làm việc đồng thời trong một nhóm lớn. Có thể quản lý hàng nghìn đại lý, mỗi đại lý chạy trên một luồng riêng. Đây là lựa chọn lý tưởng để giám sát đầu ra của một nhóm đại lý quy mô lớn.

Swarms không chỉ là một khung Agent, mà còn có thể tích hợp các khung Eliza, ZerePy và Rig, với tư duy mô-đun, để tối đa hóa hiệu suất Agent trong các luồng công việc và kiến trúc khác nhau, nhằm giải quyết các vấn đề tương ứng. Ý tưởng và sự phát triển của cộng đồng nhà phát triển của Swarms đều không có vấn đề.

  • Eliza: Dễ sử dụng nhất, phù hợp với người mới bắt đầu và phát triển nguyên mẫu nhanh, đặc biệt phù hợp với các ứng dụng AI tương tác trên các nền tảng truyền thông xã hội. Khung đơn giản, dễ tích hợp và chỉnh sửa, phù hợp với các kịch bản không yêu cầu tối ưu hóa hiệu suất quá mức.

  • ZerePy: Triển khai một nút bấm, phù hợp với việc phát triển nhanh các ứng dụng Agent AI cho Web3 và nền tảng truyền thông xã hội. Phù hợp với các ứng dụng AI nhẹ, khung đơn giản, cấu hình linh hoạt, phù hợp với việc xây dựng và lặp lại nhanh chóng.

  • Rig: Tập trung vào tối ưu hóa hiệu suất, đặc biệt xuất sắc trong các tác vụ có độ song song và hiệu suất cao, phù hợp với các nhà phát triển cần kiểm soát và tối ưu hóa chi tiết. Khung phức tạp hơn, yêu cầu một số kiến thức về Rust, phù hợp với các nhà phát triển có kinh nghiệm hơn.

  • Swarms: Phù hợp với các ứng dụng cấp doanh nghiệp, hỗ trợ hợp tác đa Agent và quản lý nhiệm vụ phức tạp. Khung linh hoạt, hỗ trợ xử lý song song quy mô lớn và cung cấp nhiều cấu hình kiến trúc khác nhau, nhưng do độ phức tạp của nó, có thể yêu cầu nền tảng kỹ thuật mạnh hơn để sử dụng hiệu quả.

Tóm lại, Eliza và ZerePy có ưu thế về tính dễ sử dụng và phát triển nhanh, trong khi Rig và Swarms phù hợp hơn với các nhà phát triển chuyên nghiệp hoặc ứng dụng doanh nghiệp yêu cầu hiệu suất cao và xử lý quy mô lớn.

Đây là lý do tại sao các khung Agent có "đặc tính hy vọng ngành". Các khung trên vẫn ở giai đoạn đầu, ưu tiên cấp bách là chiếm lĩnh lợi thế ban đầu và xây dựng một cộng đồng nhà phát triển sôi nổi. Hiệu suất cao hay thấp của bản thân khung, hoặc so với các ứng dụng Web2 phổ biến, không phải là mâu thuẫn chính. Chỉ có những khung thu hút được nguồn nhà phát triển liên tục mới có thể thắng cuộc, vì ngành Web3 luôn cần thu hút sự chú ý của thị trường, dù khung có hiệu suất mạnh mẽ và cơ sở vững chắc đến đâu, nếu khó sử dụng sẽ bị bỏ qua. Với điều kiện có thể thu hút được nhà phát triển, các khung có mô hình kinh tế token hoàn chỉnh và trưởng thành hơn sẽ vượt lên.

Việc các khung Agent có "đặc tính Memecoin" cũng rất dễ hiểu. Các token của các khung trên không có thiết kế kinh tế token hợp lý, không có trường hợp sử dụng hoặc chỉ có một trường hợp sử dụng đơn giản, không có mô hình kinh doanh đã được chứng minh, cũng không có bánh xe token hiệu quả, khung chỉ là khung và không có kết hợp hữu cơ với token, giá token ngoài FOMO ra, khó có được sự hỗ trợ từ cơ sở. Đồng thời, các khung trên cũng tương đối thô ráp, giá trị thực tế và giá trị vốn hóa thị trường hiện tại không tương xứng, do đó có đặc tính "Memecoin" mạnh mẽ.

Đáng chú ý là "tính lưỡng tính sóng-hạt" của khung Agent không phải là khuyết điểm, không thể thô bạo hiểu r

Về BlockBooster

BlockBooster là một studio đầu tư mạo hiểm Web3 ở Châu Á được hỗ trợ bởi OKX Ventures và các tổ chức hàng đầu khác, cam kết trở thành đối tác đáng tin cậy của các nhà khởi nghiệp xuất sắc. Thông qua đầu tư chiến lược và nuôi dưỡng sâu, chúng tôi kết nối các dự án Web3 với thế giới thực, hỗ trợ sự phát triển của các dự án khởi nghiệp chất lượng.

Tuyên bố miễn trừ trách nhiệm

Bài viết/blog này chỉ dùng để tham khảo, thể hiện quan điểm cá nhân của tác giả và không đại diện cho quan điểm của BlockBooster. Bài viết này không nhằm mục đích cung cấp: (i) Lời khuyên hoặc khuyến nghị đầu tư; (ii) Lời chào mời hoặc kêu gọi mua, bán hoặc nắm giữ tài sản số; hoặc (iii) Tư vấn tài chính, kế toán, pháp lý hoặc thuế. Nắm giữ tài sản số, bao gồm stablecoin và NFT, rất rủi ro, giá cả biến động lớn và thậm chí có thể trở nên vô giá trị. Bạn nên cân nhắc kỹ lưỡng xem giao dịch hoặc nắm giữ tài sản số có phù hợp với tình hình tài chính của bạn hay không. Vui lòng tham khảo ý kiến của luật sư, chuyên gia tư vấn thuế hoặc tài chính của bạn nếu có bất kỳ câu hỏi cụ thể nào. Thông tin được cung cấp trong bài viết này (bao gồm dữ liệu thị trường và thống kê, nếu có) chỉ dùng để tham khảo chung. Chúng tôi đã cẩn thận khi biên soạn các dữ liệu và biểu đồ này, nhưng không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót về mặt sự kiện nào được thể hiện trong đó.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
4
Bình luận