Manus thổi bùng ngọn lửa ảo của AGI. Liệu DeFAI có thể làm theo không?

Bài viết này được dịch máy
Xem bản gốc

P Giấc mơ trong sáng của mùa xuân V Cuộc sống nổi trôi nửa ngày P

Manus không có sự ấn tượng như DeepSeek V3/R1, mà là sự kết hợp của công nghệ thổi phồng MCP và Operator.

Sau 5+1 ngày ra mắt mã nguồn mở của DeepSeek, Manus có phải đã nắm lấy ngọn cờ dẫn đường đến AGI?

Sau khi xem xét kỹ lưỡng các chi tiết sản phẩm, mọi người có thể đã ghi nhầm ngày của Manus, ngày 22 tháng 10 năm ngoái vừa vặn là ngày phát hành, đó là ngày tốt để Anthropic Claude phát hành computer use của mình, nói cách khác, đó là ngày LLM thoát khỏi ChatBot, trở thành Agent lượng lờ, thăm dò trong không gian mạng, chỉ là OpenAI's Operator phải đến tháng 1 năm 2025 mới thực sự ra đời.

Có nhiều khái niệm, chúng ta hãy từng bước phân tích, sử dụng cách thức CoT (Chain of Thought) để xem Manus thực sự là gì.

Sự tỉnh thức của AI: Con đường đến tự do

Con đường ra khỏi hộp thoại được lát bằng sự ủy quyền.

Điều vĩ đại của OpenAI không phải là GPT, mô hình Transfomer là do Google phát minh, điều thực sự đổi mới là việc sử dụng Chat làm lối vào đầu tiên cho tương tác người-máy, chúng ta có thể hiểu nó như một cơ sở dữ liệu thông minh, có thể trả lời đại thể bất kỳ câu hỏi nào của bạn, nhưng lại nhấn mạnh hơn vào "giải đáp" chứ không phải "giúp bạn giải đáp", ví dụ bạn có thể hỏi ChatGPT cách chữa cảm lạnh, GPT có thể liệt kê các câu trả lời theo các tình huống khác nhau, nhưng không thể chẩn đoán cụ thể, cũng không thể đặt mua thuốc.

Trong ý nghĩa này, giá trị của DeepSeek là làm cho mô hình trở nên thông minh hơn (DeepSeek V3) và tăng cường khả năng chẩn đoán (DeepSeek R1), có thể xác định liệu đó là cảm lạnh do virus hay do thời tiết lạnh.

Nhưng AI vẫn không thể giúp bạn mua thuốc, GPT hoàn toàn bị phong ấn trong hộp thoại, chúng ta muốn giải phóng nó ra ngoài.

Vì vậy, Computer Use ra đời, về mặt thiết kế đường đi, nó tương tự như trợ lý bàn phím chuột, Siri Shortcuts và Apple Script, đều là những hình thức thay thế thao tác bằng tay + bàn phím, chuột (hoặc nhấp chuột vào màn hình), nhưng bên trong khác, bạn không cần tự định nghĩa các quy tắc kịch bản, chỉ cần thông qua cách giao tiếp, ra lệnh cho Claude thực hiện các thao tác tương ứng.

Lúc này, AI có thể giúp bạn mở trình duyệt, nhập địa chỉ Meituan và tìm kiếm thuốc cảm lạnh, nhưng vấn đề mới cũng sẽ xuất hiện, AI cần tài khoản Meituan của bạn để xác định cửa hàng gần bạn nhất.

Chúng ta cần cấp quyền nhiều hơn cho AI ở cấp độ cơ bản.

Chú thích hình ảnh: Quy trình làm việc lý tưởng của Agent
Nguồn ảnh: @zuoyeweb3

Đây cũng là lý do tại sao Anthropic phát hành MCP (Model Context Protocol), tức giao thức ngữ cảnh mô hình, cũng như OpenAI ra mắt Operator. Tối ưu hóa bên trong LLM đã đạt đến cực tiểu cục bộ, bây giờ cần cho phép AI/LLM hoạt động, LLM và LLM cần gọi lẫn nhau, LLM và API bên ngoài cần hợp nhất, LLM và con người cũng cần hợp tác chặt chẽ hơn.

Hãy nói sơ về MCP trước, sau đó sẽ có bài viết giải thích chi tiết.

Giá trị của MCP là mong muốn xây dựng một khung API/SDK phổ dụng cho kỷ nguyên LLM, MCP hy vọng có thể chuẩn hóa định dạng giao tiếp giữa các mô hình AI và các ứng dụng khác, ví dụ như Claude/OpenAI/DeepSeek đều sử dụng cùng một định dạng để gọi hoàn thành mã hoặc tạo quy tắc mua thuốc Meituan, như vậy, bất kể người dùng sử dụng mô hình nào, Meituan chỉ cần cấu hình cùng một giao diện.

Điều này không có nghĩa là OpenAI/DeepSeek hoặc Meituan phải tuân thủ các quy tắc cụ thể của Anthropic, nhưng có thể tham khảo để thiết kế, giống như ONNX (Open Neural Network Exchange), sự bùng nổ của các mô hình tất nhiên cần có tiêu chuẩn hợp tác tương ứng.

Nhưng bất kể sử dụng ai, người dùng vẫn cần cung cấp tài khoản và mật khẩu Meituan của mình, cũng như ủy quyền cho Alipay, và kiểm soát hệ thống gọi điện, để hoàn thành quy trình định vị, đặt hàng, gọi điện cho shipper. Cuối cùng, bạn cần đi xuống lấy thuốc tại tủ giao hàng, tạm thời AI vẫn chưa thể thay thế bạn chạy việc, robot thông minh có thể hoạt động vẫn cần thời gian.

Ý nghĩa của DeepSeek là ở chỗ, với chi phí rất thấp, LLM trở nên thông minh hơn và khả năng suy luận bằng tiếng Trung vượt trội so với các đối thủ, đây là ý nghĩa vĩ đại về mặt kỹ thuật và sản phẩm, chưa kể mô hình mã nguồn mở càng làm AI gần gũi hơn.

Đây chính là điểm khéo léo của Manus, Manus không phải là Operator của OpenAI, hoặc tuân theo quy tắc MCP của Anthropic, mà là tái phát minh ra một lần bánh xe.

Tất nhiên, người Trung Quốc cũng cần có những đóng góp trong lĩnh vực tiêu chuẩn mô hình, không thể lặp lại con đường cũ của hệ điều hành và vi xử lý, nhưng điều này không có nhiều liên quan đến cái gọi là AGI, bởi vì cho đến nay chưa thấy Manus có mô hình nền tảng lớn như thế nào, nếu đó là mô hình lớn tự phát triển, thông minh hơn, thì quả là đáng mừng.

DeFAI và AI Agent vẫn đang trong quá trình phát triển

Đối thủ của cầu nối xuyên chuỗi không phải là trừu tượng chuỗi, mà là CEX; Kẻ thù của AI Agent không phải là thực thể thông minh, mà là ví tiền.

Sau khi Manus gây sốt trên truyền thông, mã nội bộ và đồng tiền cùng tên, giữa những lời bác bỏ thật giả, AI Agent của Web3 cũng đang nóng lòng thử nghiệm, Virtuals thông báo tích hợp Enso Shortcuts, giúp người dùng tương tác bằng một nút bấm, hiện hỗ trợ 200 giao thức.

Mặt tích cực là, AI Agent của Web3 bắt đầu vượt qua cuộc tranh luận về mô hình, thẳng tiến vào nhu cầu thực sự của người dùng, nhưng rõ ràng, vấn đề cũ của Web 2 vẫn tồn tại, ủng hộ tiêu chuẩn giao thức nào?

Lấy cầu nối xuyên chuỗi làm ví dụ, LayerZero thông qua nhiều năm nỗ lực, cơ bản trở thành giao thức tiêu chuẩn sự kiện trong ngành, nhưng vẫn không thể kết nối toàn bộ các kịch bản, lý do là CEX, đặc biệt là Binance, mới là cầu nối tài sản xuyên chuỗi tiện lợi nhất, trong khi giao tiếp thông điệp liên chuỗi không phải là điểm đau hiện tại.

Và hướng thử nghiệm quan trọng nhất của Web3 AI Agent là thiết lập mối liên kết giữa người dùng, chính nó và Uniswap/Hyperliquid, tức AI Agent cần trở thành trung gian sự kiện, người nắm giữ private key hoặc người quản lý, nếu không, trải nghiệm người dùng sẽ không thể kết hợp với ví + DEX hiện có, chưa nói đến cạnh tranh với CEX.

Nói như vậy không có nghĩa là phủ định triển vọng của DeFAI, mà chỉ ra rằng nó đang đối mặt với những rào cản thực sự - không phải là mức độ thông minh, mà là vấn đề làm sao giành được sự tin tưởng của người dùng. Manus cần tranh giành quyền định nghĩa tiêu chuẩn với MCP và Operator, thì các dự án DeFAI cũng cần có ý thức như vậy.

Tất cả các dự án AI Agent đều phải kiên định với chủ nghĩa dài hạn, liên tục lặp lại và thử sai, mới có thể đợi đến lượt người dùng ban đầu của mình, trên thực tế, đối thủ của DeFAI là hình thức sản phẩm ví tiền, chứ không phải các thực thể thông minh khác.

Như ngành công nghiệp có mô hình ví quản lý và ví không quản lý, vấn đề lớn nhất của AI Agent hiện nay là chiến lược thiếu sức mạnh và an toàn tài chính, an toàn tài chính như đã nói, còn chiến lược là sau khi người dùng ủy quyền cho Agent, ngay cả khi người dùng dám ủy quyền cho Agent, họ cũng phải đối mặt với vấn đề thiết lập chiến lược, nói một cách khác, AI giúp người dùng quản lý tài sản, liệu có đáng tin cậy hay không?

Cuộc tranh luận về mô hình và khung của AI Agent Web3 hiện vẫn chưa có kết quả, tối ưu hóa chiến lược sâu hơn, vẫn chưa có dự án thực sự đưa vào sử dụng, Elon Musk từng mơ về Robotaxi hiện vẫn đang trên đường, khi nào AI quản lý tài sản chuyên nghiệp mới có thể vào mỗi ví tiền của cộng đồng tiền

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận