Tác giả: Wan Chen

Câu chuyện khởi nghiệp được nuôi dưỡng về mặt tinh thần nhiều nhất năm ngoái đến từ Zhang Luyu, người sáng lập Dify.
Lần tôi nhìn thấy anh ấy là tại sự kiện "Diễn đàn Xi Creek" năm 2023. Trong số rất nhiều cái tên nổi tiếng tại sự kiện này, ba chữ "Trương Lộ Vũ" không mấy bắt mắt. Khi chúng ta gặp lại nhau vào năm 2024, Dify đã trở thành một câu chuyện khác - một doanh nhân không có bối cảnh hào nhoáng đã tạo ra một trong những sản phẩm mã nguồn mở AI thành công nhất thế giới trong bối cảnh mọi người còn nghi ngờ về mô hình kinh doanh.
Những câu chuyện xảy ra trong công ty này trong năm qua, chẳng hạn như sự nổi tiếng bất ngờ của công ty tại thị trường "bảo thủ và khó bảo vệ" Nhật Bản, đã giúp tôi hiểu sâu hơn về "tinh thần kinh doanh". Có nhiều điều bất ngờ, và cần thêm may mắn. Cuối cùng, bạn cần có khả năng tìm ra cách thoát khỏi sự thay đổi liên tục và mọi thứ diễn ra trái với mong muốn của bạn.
Hiện nay, một câu chuyện tương tự đang xảy ra với một doanh nhân được nhiều người chú ý khác - Xiao Hong của Manus.im và đội ngũ của anh.
Bốn tháng trước, Tiêu Hồng đã đề cập đến một sự nhầm lẫn, "Đội ngũ giỏi đi từ 0 đến 1 và có khả năng nắm bắt cơ hội mạnh mẽ, nhưng một khi bắt đầu từ 1 đến N thì trạng thái không tốt lắm."
Theo kinh nghiệm trước đây, hầu hết các dự án khởi nghiệp của ông đều đạt được doanh thu tương đối ổn định và đáng kể, công ty trước đây của ông cũng đã được mua lại thành công. Năm 2023, công ty mới của ông "Butterfly Effect" đã sử dụng plug-in Monica.im cho trình duyệt để cạnh tranh trong câu chuyện AI về Hundred Model Wars, trở thành một trong những ứng dụng AI tăng trưởng nhanh nhất với trải nghiệm sản phẩm tuyệt vời. Có vẻ như anh ấy là một doanh nhân đang có một chặng đường thành công suôn sẻ. Ông chỉ mới 32 tuổi khi đạt được tất cả những điều này.
Nhưng thực tế là anh không cảm thấy khỏe lắm. Theo quan điểm của Tiểu Hồng, cái gọi là "sự ra đi liên tiếp của các doanh nhân" và cái gọi là niềm vui liên tục đi từ 0 đến 1 giống như một cuộc vây hãm - khả năng nắm bắt cơ hội từ 0 đến 1 rất mạnh mẽ và rất thỏa mãn, nhưng mặt khác, người ta cũng lo lắng về việc liệu mình có cần phải làm lại hay không.
Vào năm 2024, những người trong ngành cho rằng trợ lý AI có chức năng ghi nhớ như Monica.im sẽ phải đối mặt với áp lực từ các đối thủ cạnh tranh mạnh như Doubao và sẽ không dễ triển khai như năm 2023. Monica.im có tỷ lệ từ 0 đến 1 tốt, nhưng có thể không đạt được tỷ lệ từ 1 đến N.
Lý do khiến anh ấy bối rối là vì "đội ngũ thực sự cần phải làm những việc khó hơn, những việc có giới hạn cao hơn tiếp theo", và khám phá những việc có thể trải dài từ 1 đến N.
Trước đó, nhiều người chú ý đến Monica.im cho rằng "điều khó khăn hơn với mức trần cao hơn" này ám chỉ trình duyệt AI đã được đồn đoán từ lâu nhưng đội ngũ vẫn chưa ra mắt.
Bây giờ có vẻ như tôi đã sai.
Phần khó khăn hơn của quá trình khám phá này thực sự là: từ bỏ trình duyệt AI đã được phát hành, tìm kiếm sản phẩm AI tiếp theo cho "khoảnh khắc ChatGPT", tìm mục tiêu của một đại lý chung và tạo ra Manus.im mới nhất.
Mức độ đổi mới của Manus và mức độ mà nó có thể đạt được trong tương lai đã trở thành một chủ đề nóng. Nhưng điều đáng xem vẫn là hướng đi và quá trình tìm ra hướng đi khi mọi thứ diễn ra trái với ý muốn của mình. Manus.im có thể không cho phép đội ngũ này hoàn thành mọi việc từ 1 đến N, và thậm chí có thể không sao chép được đà phát triển của Monica.im, nhưng giống như tên của công ty này - "Hiệu ứng cánh bướm", nhiều hành động và quyết định nhỏ vô tình lại có tác động sâu sắc đến tương lai, "Kết nối các dấu chấm", con đường của ngày mai sẽ ẩn chứa trong trải nghiệm của ngày hôm nay.
01 Trải nghiệm sản phẩm độc đáo của Manus xuất phát từ những bài học kinh nghiệm rút ra từ việc tạo ra “trình duyệt AI”
Kể từ giữa đến cuối năm ngoái, quá trình phát triển trình duyệt AI của đội ngũ"Hiệu ứng cánh bướm" đã trở thành bí mật "bán công khai" trong ngành. Sản phẩm được chính thức ra mắt là Manus đã thu hút sự chú ý không thể kiểm soát.
Nếu bạn đã từng trải nghiệm Manus hoặc xem video demo, bạn sẽ cảm thấy nó khác biệt đáng kể so với các chatbot hoặc một số ứng dụng giống như tác nhân: Manus có thể thực hiện nhiệm vụ không đồng bộ và song song.
Khi bạn mở một ứng dụng như Doubao, Kimi hoặc Computer Use và hỏi một câu hỏi, bạn phải đợi ứng dụng trả lời. Ngược lại, nếu bạn nói chuyện với nó trong khi nó đang trả lời hoặc thực hiện nhiệm vụ, nhiệm vụ/ nhiệm vụ trước đó sẽ bị gián đoạn và bạn chỉ có thể trò chuyện theo kiểu chuyển tiếp ABAB với nó.
Tuy nhiên, trong Manus.im, mặc dù trông vẫn giống như một chatbot, nhưng bạn có thể hỏi nó 20 câu hỏi chẳng hạn và yêu cầu nó thực hiện nhiệm vụ cùng một lúc. Bạn có thể làm bất cứ việc gì khác trên máy tính, chẳng hạn như xem video, soạn thảo tài liệu, chơi trò chơi, v.v. mà không làm gián đoạn công việc của máy. Manus có thể thông báo cho bạn khi bất kỳ nhiệm vụ nào trong số này hoàn thành hoặc nếu có bất kỳ vấn đề nào trong quá trình thực hiện. Nếu bạn thấy suy nghĩ của nó bị lệch giữa chừng khi nhiệm vụ, bạn có thể thêm lời nhắc vào hộp thoại bất kỳ lúc nào và nó sẽ tiếp tục suy nghĩ và thực hiện nhiệm vụ với bối cảnh mới.
Trải nghiệm không đồng bộ và có thể song song hóa, và thực sự giống như có một đội ngũ thực tập sinh thực sự đang làm việc cho bạn.
Trên thực tế, thiết kế kiến trúc sản phẩm của Manus dành cho trải nghiệm không đồng bộ bắt nguồn từ bài học mà đội ngũ đã rút ra được từ sản phẩm trước đó chưa được tiết lộ của mình, trình duyệt AI. Đây cũng là lý do tại sao đội ngũ đã đầu tư nhiều công sức nhưng lại quyết định dừng phát triển trình duyệt này vào tháng 10 năm ngoái.

Vào ngày 25 tháng 10 năm 2024, Browser Company đã thông báo rằng họ sẽ ngừng phát triển các tính năng mới cho trình duyệt Arc và quyết định chuyển nguồn lực sang một trình duyệt mới, Dia, với mục tiêu tạo ra một trình duyệt AI đơn giản và dễ sử dụng hơn. |Nguồn: Trang web chính thức của Arc
"Trong trình duyệt AI, AI liên tục làm gián đoạn người dùng." Vì được thiết kế cho các tình huống người dùng đơn lẻ, nên một khi AI được sử dụng, bạn không thể sử dụng nó nữa. Khi AI bắt đầu hoạt động, bạn chỉ có thể xem nó hoạt động và rất khó để bắt đầu. Khi nhìn thấy AI giật chuột và máy tính của bạn, bạn không những không dám giật lại mà còn sợ nó vô tình chạm vào bàn phím hoặc chuột, khiến toàn bộ quá trình bị sập và bạn phải làm lại từ đầu.
Điều này khiến đội ngũ đưa ra hai quyết định:
Việc sử dụng trực tiếp máy tính để sử dụng là không khả thi trong thời gian ngắn.
AI nên sử dụng trình duyệt, nhưng không phải trong trình duyệt của bạn. Nó nên có trình duyệt riêng, tốt nhất trên đám mây và cuối cùng cung cấp cho bạn phản hồi về kết quả.
Trong một cuộc phỏng vấn với Zhang Xiaojun của Tencent Technology, Xiao Hong đã đề cập rằng khi đội ngũ tóm tắt các mẫu sản phẩm từ Jasper đến ChatGPT đến Monica đến Cursor đến Devin, họ thấy rằng "lập trình viên con người" Devin rất phù hợp với kiến trúc của trải nghiệm không đồng bộ này.
Không giống như khi sử dụng Windsurf, đôi khi sẽ yêu cầu bạn xác nhận xem máy tính của bạn có nên cài đặt thư viện này không; hoặc nó thực hiện một thao tác dòng lệnh và yêu cầu bạn điền "có" hoặc "không" vì nó có thể thực sự làm hỏng máy tính của bạn, hoặc có thể có xung đột với thứ gì đó - nó yêu cầu bạn điền "có" trước khi tiến hành bước tiếp theo, nhưng nó muốn đổ lỗi.
Do đó, theo quan điểm của đội ngũ Manus, "Chatbot nên có một máy tính trên đám mây và thực thi mã do nó viết và những thứ cần kiểm tra thông qua trình duyệt trên máy tính đó. Vì nó là một máy chủ ảo nên không thành vấn đề nếu nó bị hỏng và bạn chỉ cần có một máy chủ khác. Nó thậm chí có thể giải phóng máy chủ sau khi nhiệm vụ hiện tại hoàn thành."
Điều đáng chú ý là so với Devin chọn kỹ sư thực địa và kỹ sư cốt cán, đội ngũ Manus đã chọn trợ lý AI chung dành cho người tiêu dùng, có cả Web và Ứng dụng. Đây là trợ lý AI chung có thể gọi các công cụ và hoàn thành nhiều nhiệm vụ khác nhau trong công việc và cuộc sống theo hướng dẫn. Trong tương lai, nó cũng sẽ cung cấp kết quả nhiệm vụ với mức giá phải chăng cho người tiêu dùng.
02. Ít cấu trúc, nhiều trí thông minh
Với ý tưởng và mục tiêu rõ ràng, bước tiếp theo là hiện thực hóa ý tưởng đó. Manus đã làm điều đó như thế nào?
Theo quan điểm của đối tác sản phẩm Zhang Tao, điều này đòi hỏi phải trang bị cho mô hình lớn một máy tính, cung cấp cho nó các quyền hệ thống (truy cập vào các API sở hữu tư nhân như kho lưu trữ mã, trang web truy vấn dữ liệu chuyên nghiệp, v.v.) và cung cấp một số khóa đào tạo nhất định.
Theo cách này, AI có thể sử dụng máy tính này để mở trình duyệt, thực hiện hành động để lên lịch cho các công cụ, sau đó quan sát tác động của hành động của mình lên thế giới thực dựa trên phản hồi do các công cụ tạo ra. Sau đó, nó nghĩ về bước tiếp theo, thực hiện hành động và quan sát lại... Đây là quá trình AI hoàn thành nhiệm vụ trong quá trình khám phá và nghiên cứu. Trong thời gian này, Manus sẽ hiểu rõ hơn các yêu cầu của bạn thông qua quá trình "đào tạo" của bạn. Trong tương lai, ngay cả khi bạn không xác định rõ ràng các yêu cầu của mình, nó có thể "đoán ý Chúa" dựa trên kiến thức lắng đọng trong từng nhiệm vụ .

Li Bojie, một thiên tài trẻ tại Huawei và là người sáng lập Logic AI, cho rằng Manus có một điểm khác biệt so với các sản phẩm khác: nó giải quyết vấn đề theo cách của một lập trình viên chuyên nghiệp. |Nguồn ảnh: Ảnh chụp màn hình WeChat
Khái niệm về sản phẩm Manus dần trở nên rõ ràng hơn trong quá trình thực hành sản phẩm của đội ngũ: Ít cấu trúc, nhiều thông minh hơn.
Đây cũng là khoảnh khắc khiến đội ngũ Manus phải thốt lên "A-Ha, Đợi đã!" Ví dụ, đây là những gì đã xảy ra trong đội ngũ vào tháng 1 năm nay:
Khi Manus được yêu cầu làm một câu hỏi trên bộ thử nghiệm GAIA: "Trong một liên kết video trên YouTube tương tự như phong cách của National Geographic, nhiều chú chim cánh cụt bay vào và ra khỏi màn hình. Có bao nhiêu loại chim cánh cụt xuất hiện cùng lúc trong một khung hình? Có bao nhiêu loại chim cánh cụt?"
Sau đó, một điều kỳ diệu đã xảy ra.
Manus đầu tiên mở liên kết video, sau đó hành động đầu tiên của anh là "Nhấn K". Sau đó, anh chụp ảnh màn hình từng cái một để ghi lại chú chim cánh cụt nào xuất hiện trong khung hình nào, và cuối cùng kết luận rằng khung hình có nhiều chim cánh cụt nhất có 3 loài. Manus sẽ quay lại để kiểm tra tiếp theo và hành động tiếp theo là "Nhấn 3"... Sau khi kiểm tra lần cuối, câu trả lời là 3.
Là những người đứng sau việc xây dựng Manus, họ hẳn phải nhận thức rõ về giới hạn khả năng của hòn đảo, nhưng với đội ngũ, thực tế là "luôn có những điều bất ngờ". Điều đáng ngạc nhiên là Manus không chỉ trả lời đúng câu hỏi mà ngay cả khi chúng ta đã sử dụng máy tính và YouTube trong nhiều năm, chúng ta vẫn có thể không biết phím “K” và “3” trên bàn phím có nghĩa là gì.
Nhìn vào cảnh tượng mờ ảo trước mắt, đội ngũ theo Manus và làm lại. Phím "K" trên bàn phím là phím tạm dừng, cho phép Manus tạm dừng và chụp ảnh màn hình từng cái một để ghi lại loại chim cánh cụt nào xuất hiện trong khung hình nào; "3" cũng là phím tắt, từ 0 đến 9 tương ứng với 0% đến 90% thanh tiến trình, và 3 là 30% thanh tiến trình. Nó có thể định vị chính xác giây đó của video và sau đó cho con người biết có bao nhiêu loại chim cánh cụt trong bức ảnh này.
"Quá trình này khác với Chatbot truyền thống. Đầu tiên, nó có thể xem hình ảnh YouTube thay vì phụ đề. Thứ hai, chúng tôi thậm chí còn phát hiện ra rằng nó sử dụng các phím tắt của YouTube. Chúng tôi rất ngạc nhiên khi nó trả lời được câu hỏi." Xiao Hong cũng đã đề cập đến cảnh này trong một cuộc phỏng vấn trước đây với Tencent Technology.
Đột nhiên, tôi phát hiện ra rằng Manus không chỉ giỏi lập trình hơn con người mà còn có nhiều kiến thức hơn con người có thể tưởng tượng về Web và các ứng dụng mà mọi người sử dụng hàng ngày. Là một AI toàn năng, nó có thể hiểu tất cả các con đường và phương tiện trong bất kỳ công cụ nào và sau đó chọn phương pháp tốt nhất.
Điều này khiến đội ngũ một lần nữa cảm thấy "Ít cấu trúc, nhiều trí thông minh hơn" - giảm thiểu tối đa những hạn chế nhân tạo đối với AI và để AI đóng vai trò của mình thông qua quá trình tiến hóa của chính nó, thay vì dạy nó phải làm gì.

Ở cuối trang web chính thức của Manus, khám phá quan trọng nhất về Manus được trình bày một cách lặng lẽ: "Ít cấu trúc, nhiều trí thông minh hơn". |Nguồn ảnh chụp màn hình: Manus
Đây là lời giải thích và suy nghĩ mở rộng của Peak, người đồng sáng lập và là nhà khoa học trưởng của "Butterfly Effect", vào ngày Manus ra mắt: "Cấu trúc ít hơn, trí thông minh nhiều hơn" là nguyên tắc đầu tiên quan trọng nhất đằng sau Manus:
Khi dữ liệu của bạn có chất lượng đủ cao, mô hình đủ thông minh, kiến trúc đủ linh hoạt và kỹ thuật đủ vững chắc, thì các khái niệm như Sử dụng máy tính, Nghiên cứu chuyên sâu và Đại lý mã hóa sẽ thay đổi từ tính năng sản phẩm thành các khả năng tự nhiên mới nổi.
Quay trở lại các nguyên tắc đầu tiên cũng cho phép chúng ta có một tư duy mới về hình thức sản phẩm: · Trình duyệt AI không phải là thêm AI vào trình duyệt, mà là tạo ra một trình duyệt cho AI;
Tìm kiếm AI không thu hồi và tóm tắt từ chỉ mục, nhưng cho phép AI thu thập thông tin với sự cho phép của người dùng;
· Việc vận hành GUI không làm mất đi quyền kiểm soát thiết bị của người dùng mà cho phép AI có máy ảo riêng;
Viết code không phải là mục đích cuối cùng mà là phương tiện chung để giải quyết nhiều vấn đề khác nhau;
Khó khăn trong việc tạo ra một trang web không phải là xây dựng khuôn khổ mà là làm sao cho nội dung có ý nghĩa;
Sự chú ý không phải là tất cả những gì bạn cần. Chỉ bằng cách giải phóng sự chú ý của người dùng, chúng ta mới có thể định nghĩa lại DAU.
· ···
Thông qua việc khám phá và thực hành "Cấu trúc ít hơn, trí thông minh nhiều hơn" nhiều lần, Manus đã tạo ra những kết quả vượt quá mong đợi, bao gồm điểm pass@1 trong chuẩn mực GAIA vượt qua điểm số của OpenAI Deep Research ở mức cons@64; đồng thời, trong các bài kiểm tra nội bộ, Manus có thể trực tiếp bao phủ 76% các kịch bản của các sản phẩm tác nhân chuyên dụng trong Y Combinator W25.
03 "Vấn đề với Agent có thể là "sự căn chỉnh", không phải là khả năng mô hình cơ bản"
Hiện nay, giá trị của những hiểu biết này đang được thảo luận ở quy mô lớn hơn:

Clement Delangue, nhà sáng lập kiêm giám đốc điều hành của Hugging Face, đã đề xuất khám phá của Peak trên nền tảng X, điều này đáng để suy nghĩ: khả năng của tác nhân thông minh không bị kẹt ở mô hình cơ sở, mà giống như sự khác biệt giữa GPT-3 và InstructGPT (ChatGPT), đó là vấn đề căn chỉnh. Một số mô hình cơ sở mã nguồn mở chỉ được đào tạo để "trả lời tất cả các câu hỏi trong một lần bất kể độ phức tạp của các câu hỏi", nhưng đây là yêu cầu trong kịch bản chatbot và chỉ cần thực hiện một số đào tạo sau về lộ trình của tác nhân có thể tạo ra sự khác biệt lớn ngay lập tức. |Nguồn ảnh chụp màn hình: X


Manus không giới thiệu MCP (Giao thức ngữ cảnh mô hình) mà thay vào đó cho phép AI viết mã riêng để gọi API nhằm xử lý nhiều nhiệm vụ dài. |Nguồn ảnh chụp màn hình: X
Trong cuộc thảo luận về Manus trong vài ngày qua, câu hỏi tôi nghe được nhiều nhất là: "Đặc vụ AI chung" có khả thi không và ranh giới ở đâu?
Theo quan điểm của Peak, vì sự tương tác giữa con người và thế giới thực sự rất chuẩn mực, bằng mắt, tay và tai, nếu không gian hành động được xác định rõ ràng, thì có thể nhúng một tác nhân vào một quy trình ban đầu do con người thực hiện.
Vì con người có thể sử dụng nhiều công cụ khác nhau để hoàn thành các hoạt động chuyên sâu trong các trường dọc, nếu bản thân tác nhân có đủ kiến thức, được đào tạo bài bản và có giao diện tốt để tương tác với thế giới, thì tác nhân đó có thể hoạt động như con người và thậm chí cho phép tác nhân sử dụng một sản phẩm SaaS nhất định. Ví dụ, trường hợp tìm nhà được trình bày trên trang web chính thức của Manus.im thực sự cho phép AI hoạt động với sản phẩm SaaS dành riêng cho lĩnh vực bất động sản.
Ông cho rằng rằng điều cần được xác định rõ ràng là ranh giới sử dụng công cụ của tác nhân, thay vì nhóm người mà công cụ đó phục vụ. Manus không mô phỏng một người làm một công việc cụ thể, cũng không phải là một tác nhân thông minh dựa trên nhân vật như R&D hoặc quản lý sản phẩm. Thay vào đó, nó mô phỏng một người có thể hoàn thành mọi việc và mô phỏng cách một thực tập sinh làm việc.
Hệ thống đa tác nhân của Manus đề cập đến sự tách biệt giữa lập kế hoạch và thực hiện.
Về phần thực hiện, Manus đã áp dụng Claude, hiện đang dẫn đầu về khả năng lập trình, lập kế hoạch dài hạn và giải quyết vấn đề từng bước, đồng thời cũng đang sử dụng loạt mô hình để đào tạo sau.

Hôm qua, Manus cũng đã đạt được thỏa thuận hợp tác chiến lược với Alibaba Tongyi Qianwen, cam kết hiện thực hóa mọi chức năng của Manus trên các mô hình trong nước và nền tảng tỷ lệ băm. |Nguồn ảnh: Manus
Manus đã dành nhiều công sức cho phần lập kế hoạch.
Vì các API hoặc mô hình kệ hiện có trên thị trường về cơ bản được căn chỉnh cho các tình huống chatbot, nên trong quá trình đào tạo, bất kể người dùng hỏi câu hỏi phức tạp đến đâu, mục tiêu tối ưu hóa của quá trình đào tạo là trả lời rõ ràng câu hỏi của người dùng chỉ trong một lần trả lời, nhưng thực tế điều này hoàn toàn trái ngược với kế hoạch mà tác nhân yêu cầu.
Do đó, nếu các mô hình hiện có trên thị trường được sử dụng trực tiếp trong kịch bản tác nhân mà không có "sự liên kết", mô hình này sẽ luôn vội vã đạt được thành công nhanh chóng và đưa ra kết quả "không rõ ràng" trong một vòng đối thoại, giống như nhiều bản tóm tắt theo dấu đầu dòng.
"Phương pháp căn chỉnh phải khác nhau. Đội ngũ của chúng tôi cho rằng rằng cần có dữ liệu khác nhau để căn chỉnh đặc biệt", Xiao Hong cho biết.
Tháng 10 năm ngoái, Peak cũng đã ghi lại trên Zhihu tiến trình và thất bại của một nỗ lực tái tạo dự án quan tâm đến OpenAI o1 - mô hình mã nguồn mở Steiner. Trên thực tế, dự án này đang thực hiện nghiên cứu sơ bộ về phần lập kế hoạch từng bước của trình lập kế hoạch Manus.
Nhìn chung, Manus mô phỏng một con người thực hiện mọi việc, đây chính là định nghĩa sản phẩm đội ngũ về Manus như một trợ lý AI đa năng. Khi nghĩ về ranh giới của nó, đội ngũ có lẽ vẫn đang khám phá và cần nhiều trường hợp sử dụng của người dùng hơn.
Trong một cuộc phỏng vấn với Tencent Technology được phát hành trước khi Manus được phát hành, Xiao Hong thực sự đã đề cập đến những suy nghĩ ban đầu của mình về tính linh hoạt của Manus. "Một vấn đề cốt lõi, hoặc một trách nhiệm quan trọng của một nhà quản lý sản phẩm, là kiểm soát kỳ vọng của người dùng. Giả sử nó có thể làm mọi thứ trên thế giới, ví dụ: Làm thế nào tôi có thể kiếm được 1 triệu đô la? Đây không phải là điều mà một đại lý nên thực hiện. Nhưng nếu chúng ta có thể đưa ra nhiều ví dụ cụ thể hơn để làm cho kỳ vọng của mọi người hợp lý hơn, mọi người sẽ sử dụng nó trơn tru hơn."
04「Shell có công dụng của nó」, đội ngũ hiểu rõ nhất về Shell
Vào sáng sớm ngày 27 tháng 2, đối tác sản phẩm của Manus là Zhang Tao và nhà khoa học trưởng Ji Yichao (Peak) đều bật khóc khi nhìn thấy kết quả xếp hạng của Manus.im. Manus đã vượt qua Nghiên cứu sâu của OpenAI trên Tiêu chuẩn GAIA và đạt được kết quả bất ngờ này với chi phí chỉ bằng khoảng 1/10 chi phí của OpenAI (2 đô la Mỹ cho mỗi nhiệm vụ).

Nguồn hình ảnh: Manus.im
Đội ngũ hàng chục người này đã trở thành một trong những đội ngũ đầu tiên sản xuất ra các sản phẩm đại lý phổ thông vào thời điểm tình hình cạnh tranh của các đại lý đạt được sự đồng thuận trên toàn ngành. Nó cũng độc đáo trong kỹ thuật sản phẩm và trải nghiệm tương tác front-end.
Phản hồi tích cực từ việc hoàn thành công việc còn tốt hơn bất cứ điều gì khác. Không có khích lệ nào tốt hơn cho một đội ngũ khởi nghiệp. Nhưng trước đó, Manus đã xảy ra như thế nào? Tại sao đội ngũ này lại thực hiện dự án này?
"Khả năng của mô hình ngày nay có thể hoàn thành một số nhiệm vụ phức tạp và nhiều bước. Chỉ là chưa có sản phẩm nào như vậy nên mọi người chưa thể trải nghiệm được". Những hiểu biết sâu sắc được Xiao Hong đề cập trong một cuộc phỏng vấn trước đây với Tencent Technology có thể được sử dụng để hiểu vấn đề này.
Đồng thời, " Không có nhiều đội ngũ có cơ hội thử tạo ra các sản phẩm Agent. Điều này là do nó đòi hỏi rất nhiều khả năng phức tạp. Họ cần có kinh nghiệm về Chatbot, lập trình AI và trình duyệt vì họ cần gọi trình duyệt. Họ cũng cần có ý thức tốt về ranh giới của LLM - mức độ phát triển hiện tại của nó và mức độ phát triển tiếp theo. Trước hết, không có nhiều công ty có tất cả các khả năng này cùng một lúc và các công ty có các khả năng này có thể đang làm việc trên một việc kinh doanh rất cụ thể. Chỉ là một số bạn cùng lớp của chúng tôi có thời gian làm việc cùng nhau để thực hiện những điều này."
"chính xác".
Khám phá đúng thời điểm rằng khả năng của mô hình đã đạt đến mức có thể hoạt động như một tác nhân, mà không cần phải chờ một mô hình đầu cuối lớn như Operator được phát hành;
Người ta cũng tình cờ phát hiện ra rằng vấn đề nằm ở sự căn chỉnh;
Tôi cũng tình cờ phát triển tất cả các chức năng mở rộng của chatbot và trình duyệt AI;
Đồng thời, vì tôi đã làm việc trên các sản phẩm ứng dụng mô hình quy mô lớn trong cái gọi là "shelling", nên tôi có hiểu biết sâu sắc về LLM;
Đội ngũ"Hiệu ứng cánh bướm" hiện đã đạt được mọi yếu tố cần thiết để tạo ra một tác nhân vạn năng như vậy, nên hiện tại chúng ta đã có một tác nhân vạn năng tương đối hoàn thiện trong ngành.
Khi được hỏi về thời điểm quyết định khi khởi nghiệp Manus, Peak đã đưa ra nhiều chi tiết hơn. Ông nói, "Không có sự thay đổi 'sạch' nào trong tinh thần kinh doanh", và mọi thứ đều mạch lạc và không có ranh giới rõ ràng.
"Khi tạo ra một sản phẩm, tôi cũng sẽ chú ý chặt chẽ đến tình hình bên ngoài." Có một số thứ vào thời điểm đó. Một là khi tôi đang tạo trình duyệt, tôi đã tạo một mô hình phía máy khách. Sau đó, tôi thấy rằng các kịch bản mà trình duyệt yêu cầu rất, rất rộng, với các tính năng khác nhau. Trong quá trình này, tôi thấy rằng tốc độ mà mô hình cơ sở trở nên mạnh hơn đang tăng tốc, mạnh đến mức khoảng cách giữa nó và tác nhân có thể là một vấn đề căn chỉnh. Mặc dù thế giới bên ngoài có thể cảm thấy rằng mô hình ngôn ngữ lớn đang dần hội tụ và gặp phải trở ngại.
Cùng lúc đó, thế giới bên ngoài cũng đang thay đổi. Cursor bắt đầu nổi lên vào đầu năm ngoái, tiếp theo là Windsurf và Devin. Điều này tương ứng với lý do tại sao các tác nhân trở nên phổ biến trong lĩnh vực lập trình và cách chúng trở nên phổ biến là theo hướng tiến bộ. Cursor là một công cụ hỗ trợ cho các lập trình viên để cải thiện hiệu quả lập trình. Bắt đầu từ Windsurf, một số quy trình tự động đã dần được giới thiệu, cho phép bạn có khả năng tự động hóa mạnh hơn trên máy cục bộ của mình. Devin đã đạt đến một cấp độ tự động hóa mới.
Xu hướng VC cũng nhất quán. Ví dụ, năm ngoái và năm trước đó, YC đã đầu tư vào hai loại công ty. Một là trình duyệt dựa trên đám mây, chẳng hạn như Browser base; loại thứ hai là máy ảo AI Sandbox nhẹ như e2b.
Điều này cho thấy "cơ sở hạ tầng mô hình đang phát triển nhanh chóng và cơ sở hạ tầng Infra cũng đang phát triển nhanh chóng. Ngoài ra, khi chúng tôi thấy rằng các sản phẩm bên ngoài đang dần được chấp nhận nhiều hơn, chúng tôi cảm thấy đây là một hướng đi đáng giá. Đây là một quá trình rất dần dần và suôn sẻ. Ngoài ra, việc tích lũy các trình duyệt, chẳng hạn như Chromium, có thể được di chuyển liền mạch. Đây là lý do tại sao chúng tôi dám phát triển các trình duyệt trên đám mây".
Tóm lại, Manus có thể thành công là nhờ vào nhận thức sâu sắc của ông về nhu cầu và mô hình cũng như kinh nghiệm tích lũy được trong cái gọi là "vỏ bọc". Nhiều kịch bản của Monica đòi hỏi phải đào tạo mô hình sau. Đồng thời, bài học quan trọng nhất "ít cấu trúc, nhiều trí thông minh" đã được củng cố trong quá trình thực hành của trình duyệt AI. Người ta thấy rằng khả năng của mô hình đủ để trở thành một tác nhân và vấn đề nằm ở sự liên kết. Sau đó là ba tháng tiến triển nhanh chóng của Manus.
Trước đó, đội ngũ"Butterfly Effect" đã từng bị chất vấn về giá trị của "shelling". Không phát triển mô hình lớn của riêng mình, họ đã tạo ra Monica bằng cách tích hợp các mô hình lớn hiện có, tích hợp các chức năng như trò chuyện, tìm kiếm, đọc, viết và dịch. Họ cũng tích hợp nhiều kịch bản thực hiện nhiệm vụ bằng cách kết nối với API từng cái một. Vào cuối năm ngoái, số lượng người dùng đã đạt tới hàng chục triệu.
Hiện nay, khi Doubao, Quark và Yuanbao đang tích cực quảng bá các sản phẩm Monica của mình và khi một đội ngũ nhỏ sử dụng các công nghệ hiện có để tạo ra sản phẩm đại lý tiêu dùng đầu tiên, thì đã đến lúc phải hiểu lại "vỏ".
“Vỏ” và “vỏ sò” thực chất là gì?
Theo quan điểm của Tiểu Hồng, mọi đột phá đều do mô hình mang lại, và về cơ bản mô hình đóng vai trò dẫn dắt và đi trước. Mục đích của lớp vỏ là hiển thị những cải tiến công nghệ của mô hình theo cách mà người dùng có thể nhận biết được và gói gọn các khả năng cải tiến của mô hình theo cách mà người dùng có thể cảm nhận tốt nhất.
Dựa trên định nghĩa này, DeepSeek App (bao gồm cả việc hiển thị Chuỗi suy nghĩ) là lớp vỏ của DeepSeek-R1, Cursor là lớp vỏ của Anthropic Sonnet 3.5, Perplexity là lớp vỏ của GPT-4 và ChatGPT là lớp vỏ của InstructGPT.
Khi khả năng của mô hình phát triển nhanh chóng, "lớp vỏ" cũng cần phải phát triển theo. Sau mỗi thế hệ khả năng của mô hình phát triển, thậm chí có thể không phải nhà sản xuất ban đầu mà là nhà sản xuất bên thứ ba thể hiện giá trị mà người dùng cảm nhận được. Giống như cách Cursor đưa ra giá trị mà người dùng cảm nhận được của Claude 3.5 Sonnet.
Vào ngày 5 tháng 3, kỷ niệm hai năm phát hành Monica.im, tại sao hàng chục người này lại tạo ra một trải nghiệm sản phẩm vượt qua nhiều Deep Research và OpenAI Operators? Câu trả lời nằm ở sự hiểu biết và thực hành của họ về shell.
Làm thế nào để tạo ra lớp vỏ tốt nhất cho một mô hình mới có thể được sử dụng làm tác nhân?
Với tư cách là người xây dựng Manus, Zhang Tao cho rằng"khi nhìn vào toàn bộ kiến trúc từ phía sau, chúng tôi thấy rằng vẫn còn lượng lớn công việc chưa hoàn thành cần phải thực hiện ở mọi nơi và mỗi nơi đó đều là chìa khóa thành công và tạo nên sự khác biệt cho sản phẩm".
Theo quan điểm đội ngũ, lợi thế quan trọng nhất là tốc độ đổi mới. Cả ứng dụng và mô hình đều đã đạt đến trạng thái bão hòa tương đối. Khả năng cốt lõi duy nhất còn lại là chạy nhanh, mặc dù những thứ như "bánh đà dữ liệu" và "hiệu ứng mạng" vẫn chưa được xác minh.
"Trong một lĩnh vực hoàn toàn mới, mọi thứ đều không chắc chắn và chưa biết trước. Điều quan trọng nhất là tốc độ đổi mới. Nó phụ thuộc vào việc khám phá và thử nghiệm theo nhiều hướng khác nhau để nhanh chóng tìm ra con đường đúng đắn." Đội ngũ Manus đủ linh hoạt về mặt triết lý quản lý, cơ cấu tổ chức và quy trình công nghiệp. Khi có cơ hội mới, chúng tôi có thể tích hợp mọi nguồn lực của toàn công ty từ trên xuống dưới trong phạm vi nguồn lực hạn chế, đưa ra quyết định với tốc độ cực nhanh và thích ứng với phản hồi từ những sai lầm.

Từ trái sang phải là nhà khoa học trưởng của "Butterfly Effect" Peak, CEO Xiao Hong và đối tác sản phẩm Zhang Tao | Nguồn ảnh: Internet
Về kỳ vọng của Manus, Xiao Hong cho rằng"dù có thời gian thì cũng đáng thử". Suy nghĩ của anh cũng đã thay đổi đáng kể trong năm qua. Ví dụ, anh hiện cho rằng"khi tôi nhận ra mình đang đi trước thời đại, tôi sẽ hung hăng hơn, siêu hung hăng. Nhìn lại ngày hôm nay, tôi cảm thấy Monica đã không đủ hung hăng trong 23 năm". "Nếu bạn biết rằng mình đang đổi mới và dẫn đầu, bạn nên hung hăng".
Tôi không biết liệu Manus có thể mang đến cho Xiao Hong và đội ngũ của anh ấy trải nghiệm và bước nhảy vọt từ 1 đến N hay không, nhưng đội ngũ này hiểu rõ nhất về "vỏ sò" tin vào sự sáng tạo với sự hợp nhất của trái tim và bàn tay, và cũng tin vào hiệu ứng cánh bướm do sự sáng tạo mang lại - Manus bắt nguồn từ một phương châm của MIT: Mens at manus, nhấn mạnh vào sự hợp nhất của trái tim và bàn tay. Chỉ đọc thôi là chưa đủ, bạn phải thực hành và tạo ra tác động đến thế giới thực, chỉ khi đó bạn mới có thể có được kiến thức thực sự.
Trong tương lai, khi ngày càng nhiều lắng đọng đằng sau Manus được mã nguồn mở, phạm vi hiệu ứng cánh bướm rộng hơn sẽ được công bố.



