Văn bản gốc: " Khoảnh khắc GPT" của AI Agent, Manus đã đánh thức toàn bộ vòng tròn AI! 》
Tác giả: Shiyun Zhang Yongyi
Biên tập: Jingyu
Năm 2025 là năm đầu tiên của AI Agent - tuyên bố này đã trở thành sự thật vào sáng sớm ngày 6 tháng 3 theo giờ Bắc Kinh.
"Sau DeepSeek, cộng đồng công nghệ lại mất ngủ thêm một đêm."
Nhiều người dùng đã đưa ra những bình luận như vậy trên mạng xã hội.
Mọi người đã thức trắng đêm chỉ để nhận được mã mời sử dụng sản phẩm - đó là "Manus", sản phẩm AI Agent đầu tiên trên thế giới do Monica.im phát triển.
Theo đội ngũ, "Manus" là một AI Agent thực sự tự động có thể giải quyết nhiều nhiệm vụ phức tạp và thay đổi. Không giống như trợ lý AI truyền thống, Manus không chỉ đưa ra gợi ý hoặc câu trả lời mà còn trực tiếp cung cấp kết quả nhiệm vụ hoàn chỉnh.
Video giới thiệu của Manus chỉ dài 4 phút, nhưng nó cực kỳ mạnh mẽ. Nguồn hình ảnh: Monica.im
Như tên gọi "Manus" ngụ ý, nó tượng trưng cho "bàn tay" trong tiếng Latin. Nói cách khác, kiến thức không chỉ nằm trong não mà còn phải được thực hiện bằng đôi tay. Đây là sự tiến bộ thiết yếu của các sản phẩm Agent và AI Bot (chatbot).
Manus Con bò đâu rồi? Cách trực quan nhất là xem các trường hợp sử dụng được hiển thị trên trang web chính thức và được người dùng tự động hiển thị. Phần Geek Park được tóm tắt như sau:
- Lập kế hoạch du lịch: Không chỉ tổng hợp thông tin du lịch mà còn tạo ra các hướng dẫn du lịch tùy chỉnh cho người dùng. Ví dụ, ứng dụng này cung cấp lời khuyên du lịch được cá nhân hóa và hướng dẫn chi tiết cho người dùng đang có kế hoạch đi du lịch Nhật Bản vào tháng 4.
- Phân tích cổ phiếu: Thực hiện phân tích cổ phiếu chuyên sâu và thiết kế bảng thông tin hấp dẫn để thể hiện thông tin chi tiết toàn diện về cổ phiếu. Ví dụ, hãy tiến hành phân tích độ sâu về cổ phiếu Tesla và tạo bảng thông tin trực quan.
- Tạo nội dung giáo dục: Tạo các bài thuyết trình video cho giáo viên trung học để giải thích các khái niệm phức tạp như định lý động lượng, giúp giáo viên giảng dạy hiệu quả hơn.
- So sánh các hợp đồng bảo hiểm: Tạo bảng so sánh hợp đồng bảo hiểm rõ ràng và đưa ra các gợi ý quyết định tốt nhất để giúp người dùng lựa chọn sản phẩm bảo hiểm phù hợp nhất.
- Tìm nguồn cung ứng: Tiến hành nghiên cứu chuyên sâu trên toàn bộ mạng lưới để tìm ra những nhà cung cấp phù hợp nhất với nhu cầu của bạn và phục vụ bạn như một đại lý thực sự khách quan.
- Phân tích báo cáo tài chính: Ghi lại những thay đổi trong tâm lý thị trường đối với các công ty cụ thể (như Amazon) thông qua nghiên cứu và phân tích dữ liệu , cung cấp phân tích tâm lý thị trường trong bốn quý vừa qua.
- Biên soạn danh sách các công ty khởi nghiệp: Truy cập các trang web có liên quan để xác định các công ty đủ điều kiện và sắp xếp chúng vào một bảng. Ví dụ, hãy lập danh sách tất cả các công ty B2B từ lần YC W25.
- Phân tích hoạt động của cửa hàng trực tuyến: Phân tích dữ liệu bán hàng của cửa hàng Amazon để cung cấp thông tin chi tiết hữu ích, hình ảnh trực quan chi tiết và các chiến lược tùy chỉnh nhằm giúp cải thiện hiệu suất bán hàng.
- Khi Agent trải qua một chuỗi dài Chuỗi và gọi công cụ và cuối cùng đưa ra một kết quả cực kỳ hoàn chỉnh và chuyên nghiệp, người dùng bắt đầu thốt lên rằng "nó thực sự có thể giúp con người làm việc".
Theo trang web chính thức, Manus đã đạt được hiệu suất tiên tiến mới (SOTA) ở cả ba mức độ khó trong tiêu chuẩn GAIA, đánh giá khả năng của trợ lý AI nói chung trong việc giải quyết các vấn đề thực tế.
Tóm lại trong một câu - điều Manus muốn làm là trở thành "người đại diện" của bạn trong thế giới kỹ thuật số theo đúng nghĩa đen. Và điều đó đã xảy ra.
Đúng như bạn có thể tưởng tượng, việc ra mắt Manus vào sáng sớm đã đánh thức tất cả mọi người trong cộng đồng AI!
01. Manus, đại lý kỹ thuật số của bạn
Trước hết, sự khác biệt lớn nhất giữa Manus và chương trình LLM trước đó về mặt trải nghiệm:
Nó nhấn mạnh khả năng mang lại kết quả cuối cùng trực tiếp thay vì chỉ đưa ra một "câu trả lời" đơn giản.
Manus hiện đang sử dụng kiến trúc Nhiều tác nhân và hoạt động theo cách tương tự như Computer Use trước đây do Anthropic phát hành, chạy hoàn toàn trên một máy ảo độc lập. Đồng thời, bạn có thể gọi nhiều công cụ khác nhau trong hoàn cảnh ảo - viết và thực thi mã, duyệt web, vận hành ứng dụng, v.v. và trực tiếp cung cấp kết quả hoàn chỉnh.
Trong video chính thức, ba trường hợp công việc được Manus hoàn thành trong các tình huống sử dụng thực tế được giới thiệu:
Nhiệm vụ đầu tiên là sàng lọc sơ yếu lý lịch.
Đề xuất những ứng viên phù hợp cho vị trí kỹ sư thuật toán học tăng cường từ 15 hồ sơ xin việc và xếp hạng các ứng viên dựa trên chuyên môn về học tăng cường của họ.
Trong bản demo này, bạn thậm chí không cần phải giải nén tệp nén và tải lên từng tệp sơ yếu lý lịch theo cách trong đó công. Lúc này, Manus đã thể hiện vai trò là một "thực tập sinh" của mình, tự tay giải nén các tập tin và duyệt từng trang sơ yếu lý lịch, đồng thời trong đó những thông tin quan trọng.
Manus, giống như một thực tập sinh, tự động hiểu được hướng dẫn ẩn "giải nén tệp gói do sếp đưa ra" | Nguồn hình ảnh: Geek Park
Kết quả do Manus đưa ra không chỉ bao gồm các gợi ý xếp hạng được tạo tự động mà còn chia ứng viên thành nhiều cấp độ khác nhau dựa trên các khía cạnh quan trọng như kinh nghiệm làm việc. Sau khi nhận được thông tin người dùng muốn trình bày nội dung dưới dạng bảng Excel, Manus cũng có thể tự động tạo bảng tương ứng bằng cách viết một tập lệnh Python ngay tại chỗ.
Manus thậm chí có thể sử dụng trí nhớ của mình để ghi lại thông tin như "người dùng thích nhận kết quả trong bảng" trong quá trình thực hành này. Lần tới khi anh ấy xử lý các kết quả nhiệm vụ tương tự, anh ấy sẽ ưu tiên trình bày chúng trong bảng.
Manus có thể ghi nhớ sở thích của người dùng trong quá trình tạo nội dung | Nguồn hình ảnh: Geek Park
Trường hợp thứ hai, phù hợp hơn với người Trung Quốc, là việc lựa chọn bất động sản.
Trong trường hợp này, người dùng muốn mua một bất động sản ở New York và các yêu cầu mà người dùng nhập vào là muốn có một hoàn cảnh cộng đồng an toàn, tỷ lệ tội phạm thấp và nguồn giáo dục tiểu học và trung học chất lượng cao - và tất nhiên là ngân sách quan trọng nhất, đủ để chi trả với mức thu nhập cố định hàng tháng.
Trước nhu cầu này, Manus AI chia nhỏ nhiệm vụ phức tạp thành danh sách việc cần làm, bao gồm nghiên cứu khu phố an toàn, xác định trường học tốt, tính toán ngân sách, tìm kiếm bất động sản, v.v. Và thu thập thông tin có liên quan bằng cách tìm kiếm trên Internet và đọc kỹ các bài viết về những khu phố an toàn nhất ở New York.
Thứ hai, Manus đã viết một chương trình Python để tính toán ngân sách bất động sản phù hợp dựa trên thu nhập của người dùng. Kết hợp với thông tin giá nhà liên quan trên các trang web bất động sản, hãy lọc danh sách bất động sản theo phạm vi ngân sách của bạn.
Manus có thể tự động tìm kiếm và lọc ra những bất động sản không đáp ứng được yêu cầu của người dùng | Nguồn hình ảnh: Geek Park
Cuối cùng, Manus tích hợp tất cả thông tin thu thập được vào một báo cáo chi tiết bao gồm phân tích an toàn khu phố, đánh giá chất lượng trường học, phân tích ngân sách, danh sách các bất động sản được đề xuất và liên kết đến các nguồn tài nguyên có liên quan, giống như một đại lý bất động sản chuyên nghiệp. Và vì Manus có thuộc tính "hoàn toàn dựa trên sở thích của người dùng" nên trải nghiệm sử dụng của nó thậm chí còn tốt hơn.
Trong trường hợp cuối cùng, Manus đã chứng minh khả năng phân tích giá cổ phiếu của mình.
Nhiệm vụ được giao trong trường hợp này là phân tích mối tương quan giữa giá cổ phiếu của NVIDIA, Marvell Technology và TSMC trong ba năm qua: ai cũng biết rằng có mối tương quan chặt chẽ giữa ba cổ phiếu này, nhưng đối với người dùng mới, sẽ rất khó để nhanh chóng phân loại trong đó quan hệ nhân quả.
Hoạt động của Manus rất giống với hoạt động của một nhà môi giới chứng khoán thực thụ. Đầu tiên, Manus truy cập các trang web thông tin như Yahoo Finance thông qua API để lấy dữ liệu chứng khoán lịch sử . Manus cũng kiểm tra chéo tính chính xác dữ liệu để tránh bị đánh lừa bởi một nguồn thông tin duy nhất, điều này sẽ có tác động đáng kể đến kết quả cuối cùng.
Trong trường hợp này, Manus cũng sử dụng khả năng viết mã Python, thực hiện phân tích và trực quan hóa dữ liệu, đồng thời giới thiệu các công cụ tài chính chuyên nghiệp để phân tích. Cuối cùng, thông qua biểu đồ trực quan hóa dữ liệu và báo cáo phân tích toàn diện chi tiết, anh đã cung cấp cho người dùng phản hồi về trong đó quan hệ nhân quả - thực sự giống như công việc hàng ngày của một "thực tập sinh" trong lĩnh vực tài chính.
Không chỉ vậy, trang web chính thức của Manus còn hiển thị hơn chục tình huống có thể sử dụng Manus: bạn có thể trực tiếp sử dụng Manus để giúp bạn sắp xếp hành trình, đề xuất được cá nhân hóa và để Manus học cách sử dụng nhiều công cụ phức tạp khác nhau để hoàn thành công việc hàng ngày của bạn một cách hợp lý.
Trong quá trình này, điều thực sự khiến Manus khác biệt so với các công cụ trước đây là khả năng lập kế hoạch tự động để đảm bảo thực hiện nhiệm vụ.
Khả năng học tập tự chủ cũng làm cho logic cải thiện khả năng làm việc của Manus giống với con người thực sự hơn - mặc dù nó có thể chưa đạt được trình độ chuyên gia trong một lĩnh vực cụ thể ở giai đoạn này, nhưng nó đã có thể nhìn thấy tiềm năng to lớn.
Với việc bổ sung khả năng học tự động, tính linh hoạt của AI Agent đã được cải thiện đáng kể. Trong các thử nghiệm người dùng thực tế trên Manus, bạn thậm chí có thể trực tiếp mô tả nội dung có liên quan trong màn hình video cho nó. Cuối cùng, Manus có thể trực tiếp tìm thấy liên kết đến một video ngắn Douyin nhất định dựa trên thông tin tương ứng, vượt qua các hạn chế của nội dung nền tảng trên các công cụ tìm kiếm.
Vì phiên bản hiện tại của Manus chạy hoàn toàn không đồng bộ trên đám mây nên khả năng của Manus không thực sự bị giới hạn bởi các yếu tố như hình thức nền tảng thiết bị đầu cuối hoặc tỷ lệ băm mà bạn sử dụng - người dùng thậm chí có thể tạm thời tắt máy tính sau khi hướng dẫn Manus và khi Manus hoàn tất kết quả hoạt động, nó sẽ tự động thông báo cho bạn về kết quả.
Logic của hoạt động này cũng rất quen thuộc - giống như một người sau khi tan làm, gọi cho một thực tập sinh trên WeChat để "gửi tài liệu cho tôi khi chúng đã sẵn sàng". Tuy nhiên, hiện tại, thực tập sinh này có thể phản hồi bạn 24/7 và bạn không cần phải lo lắng về việc anh ta "tổ chức lại nơi làm việc".
02. Nhiều tác nhân + tự kiểm tra để chạy luồng tác nhân AI
Từ những trường hợp trên, không khó để nhận ra rằng tính năng thực sự gây ấn tượng của Manus không phải là khái niệm "AI Agent" xuất hiện trên Computer Use, mà là khả năng "mô phỏng cách con người làm việc".
Thay vì "chạy tính toán", logic làm việc của Manus giống như "suy nghĩ và thực hiện lệnh" hơn. Nó không làm bất cứ điều gì mà con người hiện tại không thể làm được; đó là lý do tại sao một số người dùng đã trải nghiệm phiên bản Manus hiện tại mô tả nó là "một thực tập sinh".
Trang web chính thức của Manus hiển thị nhiều nhiệm vụ mà Manus có thể thực hiện, trong đó một nghiên cứu tình huống cho thấy cách sử dụng Manus trong việc kinh doanh B2B. Nhanh chóng và chính xác đáp ứng nhu cầu đặt hàng của bạn với các nhà cung cấp toàn cầu.
Đối với các sản phẩm thông thường có nhu cầu tương tự, một logic phổ biến trong ngành là tích hợp thông tin doanh nghiệp Chuỗi cung ứng toàn cầu vào nền tảng để giúp người dùng hoàn tất việc khớp nhà cung cấp/nhu cầu. Nhưng trong trường hợp của Manus, bạn có thể thấy một cách thực hiện hoàn toàn khác.
Manus AI sử dụng kiến trúc có tên là "Nhiều tác nhân" và chạy trên các máy ảo độc lập. Thông qua cơ chế phân công lao động và hợp tác giữa cơ quan lập kế hoạch, cơ quan thực hiện và cơ quan kiểm tra. Cải thiện đáng kể hiệu quả xử lý nhiệm vụ phức tạp và rút ngắn thời gian phản hồi thông qua tính toán song song.
Trong kiến trúc này, mỗi tác nhân có thể dựa trên một mô hình ngôn ngữ độc lập hoặc mô hình học tăng cường và giao tiếp với nhau thông qua API hoặc hàng đợi tin nhắn. Đồng thời, mỗi nhiệm vụ chạy trong môi trường thử nghiệm để tránh ảnh hưởng đến nhiệm vụ khác, đồng thời hỗ trợ mở rộng đám mây. Mỗi mô hình độc lập có thể mô phỏng quy trình xử lý nhiệm vụ của con người, chẳng hạn như suy nghĩ và lập kế hoạch trước, hiểu các hướng dẫn phức tạp và chia nhỏ chúng thành các bước có thể thực hiện, sau đó gọi các công cụ thích hợp.
Nói cách khác, thông qua kiến trúc đa tác nhân của Manus, nó giống như nhiều trợ lý hỗ trợ bạn hoàn thành các nhiệm vụ như tìm kiếm tài nguyên, kết nối và xác minh thông tin có hợp lệ hay không, để giúp bạn hoàn thành toàn bộ quy trình công việc - thực tế không chỉ giống như bạn đã thuê một "thực tập sinh", mà giống như trực tiếp trở thành phiên bản thu nhỏ của một "trưởng phòng".
Trong trường hợp việc kinh doanh B2B, Manus sử dụng trình thu thập thông tin web và khả năng viết và thực thi mã để tự động tìm kiếm trên khắp đại dương Internet và kết nối bạn với nguồn hàng phù hợp nhất dựa trên nhu cầu của riêng bạn, bao gồm các nhà cung cấp tiềm năng về chất lượng sản phẩm, giá cả, khả năng giao hàng, v.v. Kết luận không chỉ có thể được trình bày cho bạn một cách trực quan dưới dạng biểu đồ. Nó cũng có thể cung cấp các đề xuất hoạt động chi tiết hơn dựa trên dữ liệu này.
Manus đáp ứng nhu cầu của các kịch bản B2B và có thể tốt hơn các công cụ tích hợp của một nền tảng duy nhất | Nguồn hình ảnh: Geek Park
Theo báo cáo, đội ngũ của Monica đã sử dụng công nghệ gì và như thế nào để tạo ra hiệu ứng video, đội ngũ có thể sẽ tiết lộ cho mọi người vào ngày 6 tháng 3 theo giờ Bắc Kinh.
03. Đỉnh cao của “khâu” là sự bùng nổ
Monica.im, công ty đứng sau Manus, là công ty như thế nào?
Monica là trợ lý AI toàn diện. Hình thức sản phẩm của nó đã dần mở rộng từ plug-in trình duyệt sang ứng dụng và trang web. Kịch bản sử dụng chính thống là khi người dùng nhấp vào biểu tượng nhỏ của nó trong trình duyệt, họ có thể trực tiếp sử dụng các mô hình chính thống mà nó truy cập. Bằng cách hiểu chính xác nhu cầu của người dùng trong các tình huống phân khúc, Monica đã chọn được "quả chín" trong mô hình lớn.
Người sáng lập Xiao Hong (biệt danh Xiaohong, tên tiếng Anh là Red) là một doanh nhân trẻ sinh năm 1992 và tốt nghiệp Đại học Khoa học và Công nghệ Hoa Trung. Năm 2015, anh bắt đầu kinh doanh riêng sau khi tốt nghiệp, nhưng những dự án kinh doanh ban đầu của anh không mấy suôn sẻ (như mạng xã hội trong trường và chợ đồ cũ). Năm 2016, anh bắt đầu kinh doanh cung cấp công cụ chỉnh sửa và phân tích dữ liệu cho các nhà điều hành tài khoản công khai WeChat, thu hút hàng triệu người dùng và đạt được lợi nhuận. Sản phẩm cuối cùng được bán cho một công ty kỳ lân vào năm 2020.
Sau làn sóng mô hình lớn vào năm 2022, anh chính thức thành lập Monica, tập trung vào thị trường nước ngoài và nhanh chóng hoàn thành việc khởi động sản phẩm thông qua sản phẩm dành cho nhà phát triển độc lập ChatGPT cho Google.
Vào năm 2024, Monica sẽ cho phép người dùng có được các mẫu SOTA mới nhất ngay khi sê-ri GPT-4o, Claude 3.5 và OpenAI o1 ra mắt. Với tiến bộ mới trong mô hình truy cập, tìm kiếm chuyên nghiệp của Monica, DIY Bot, viết chương trình nhỏ Artifacts, bộ nhớ và các chức năng khác cũng được người dùng ưa chuộng. Monica trình bày nhiều hình thức và chức năng tương tác khác nhau trên các trang web có chức năng khác nhau, chẳng hạn như YouTube, Twitter, Gmail và The Information, để phù hợp với nhu cầu của người dùng trong các tình huống cụ thể và đã cập nhật trải nghiệm AI được cá nhân hóa của hàng trăm trang web.
Đến năm 2024, số lượng người dùng Monica sẽ tăng gấp đôi lên 10 triệu. Đồng thời, sản phẩm vẫn duy trì được lợi nhuận đáng kể và được xếp hạng trong số các sản phẩm tương tự ở nước ngoài.
Diễn xuất tuyệt vời của Monica chứng minh một điều:
Khi shell được đưa đến mức cực đại, nó sẽ trở thành cả TPF và PMF, và cuối cùng sẽ dẫn đến giá trị cho người dùng.
Monica Home | Nguồn hình ảnh: Monica
Manus có thể đã tiếp tục ý tưởng của đội ngũ Monica. Khi Xiao Hong được phỏng vấn bởi người của giới truyền thông Zhang Xiaojun, anh ấy nói rằng sản phẩm không thể giới hạn ở dạng chatbot. Agent sẽ là một hình thức mới đòi hỏi các sản phẩm mới phải tiếp quản.
Anh lấy cảm hứng từ các sản phẩm lập trình AI của Cursor và Devin. Theo Geek Park, chế độ trước chủ yếu là chế độ đồng lái, chế độ sau là chế độ lái tự động, chế độ sau phù hợp hơn với nhu cầu của con người. Đặc vụ cũng phải giống như Devin, đối mặt với công chúng và thực sự được AI dẫn dắt để thực hiện. Nhưng vấn đề trước đây là các mô hình không đủ thông minh.
Tuy nhiên, khả năng cung cấp dịch vụ đóng gói theo kịch bản dựa trên mô hình có thể là lợi thế của đội ngũ Monica. Tiêu Hồng cho biết hiện tại không có nhiều đội ngũ sản phẩm Agent, vì nó đòi hỏi rất nhiều năng lực phức tạp. Ví dụ, đội ngũ phải có kinh nghiệm về chatbot, lập trình AI, liên quan đến trình duyệt (vì mọi thứ đều chạy trên trình duyệt) và có ý thức tốt về ranh giới của mô hình - mức độ phát triển hiện tại là bao nhiêu, mức độ tiếp theo sẽ phát triển là bao nhiêu, v.v.
"Không có nhiều công ty có tất cả những khả năng này cùng một lúc, và những công ty có thể làm được điều đó có thể đang hoạt động trong một việc kinh doanh rất cụ thể, nhưng chúng tôi tình cờ có những bạn cùng lớp có thời gian làm việc cùng nhau để hoàn thành công việc này", ông nói.
Tại sao Monica lại nghĩ ra nó? Ông kết luận, "Đầu tiên, tôi nghĩ chúng ta may mắn. Thứ hai, ở một mức độ nào đó, nếu mọi người đều suy luận ngày nay, có lẽ sẽ có nhiều thời gian hơn cho các công ty khởi nghiệp? Mô hình có thể dự đoán được sự lan tỏa của năng lực đến mức nào?"
Ông cho rằng rằng Agent vẫn đang trong giai đoạn đầu. Đầu tiên, Agent vẫn đang trong giai đoạn lập kế hoạch và chưa được triển khai trong thế giới thực; thứ hai, khả năng của mô hình lớn vẫn đang được phát triển và mọi thứ đều không thể đoán trước.
"Tôi chắc chắn không biết Agent có thể bị loại bỏ theo cách này không. Đó là điều chưa biết", ông nói.
Điều thú vị là Monica, người “không biết cách trở thành một đặc vụ”, giờ đây đã tạo ra một sản phẩm khiến toàn bộ cộng đồng AI phải sửng sốt.
Manus có thể không hẳn là tác nhân AI cuối cùng, nhưng chắc chắn đã kéo lên kỳ vọng của mọi người đối với AI lên gấp bội sau sự phổ biến của DeepSeek.
*Nguồn hình ảnh tiêu đề: Monica.im