Toàn văn cuộc trò chuyện mới nhất của Manus: Thử nghiệm thanh toán của Agent, RRR của công ty gần 100 triệu đô la

Bài viết này được dịch máy
Xem bản gốc
Trong thời đại của Agent for Everything, Manus đã đi trước một bước.

Tác giả: Lý Nguyên

Biên tập: Jingyu

Manus, người chuyển đến Singapore, vẫn không ngừng suy nghĩ về các tác nhân AI nói chung.

Tại Stripe Tour được tổ chức tại Singapore ngày hôm nay, nhà đồng sáng lập kiêm Trưởng nhóm khoa học của Manus, Ji Yichao (Peak) đã trò chuyện với Paul Harapin, Giám đốc doanh thu của Stripe khu vực Châu Á - Thái Bình Dương và Nhật Bản.

Trong buổi họp, Manus AI đã công bố dữ liệu hoạt động gần đây. Tỷ lệ doanh thu nhập(RRR) của Manus AI đã đạt 90 triệu đô la Mỹ và sẽ sớm vượt mốc 100 triệu đô la.

Xiao Hong của Manus AI cũng ngay lập tức làm rõ rằng tỷ lệ doanh thu được tính bằng doanh thu của tháng hiện tại nhân với 12, và không tương đương với thu nhập tiền mặt. Nhiều sản phẩm AI cung cấp tùy chọn thanh toán hàng năm, mà chỉ nên được coi là khoản tiền gửi, chứ không phải doanh thu. "Nếu chúng tôi tiết lộ điều này [không chính xác], chúng tôi có thể thu được con số lớn hơn nhiều so với 120 triệu đô la", Xiao Hong nói.

Ngoài dữ liệu kinh doanh, Ji Yichao còn chia sẻ suy nghĩ của đội ngũ Manus về bước tiếp theo của các tác nhân chung và sự khác biệt giữa tác nhân AI và AGI trong tương lai.

"Ngày nay, hầu như mọi thứ đều được gọi là tác nhân. Ví dụ, có người gọi micro là 'tác nhân thu sóng vô tuyến thân thiện hoàn cảnh'", Kỷ Nhất Siêu nói đùa.

Ông cũng đưa ra hai hướng chính để mở rộng khả năng của các tác nhân chung: Thứ nhất, sử dụng sự cộng tác của nhiều tác nhân để mở rộng quy mô thực hiện (chẳng hạn như tạo ra hàng trăm tác nhân phụ song song trong các cuộc khảo sát quy mô lớn); thứ hai, mở ra một "bề mặt công cụ" lớn hơn cho các tác nhân, không gắn chặt khả năng của chúng với một vài API được cài đặt sẵn mà cho phép chúng gọi các hệ sinh thái mã nguồn mở, cài đặt thư viện và thậm chí xem và sửa đổi chúng sau khi trực quan hóa, giống như các lập trình viên.

Ji Yichao cũng đề cập rằng thế giới số ngày nay vẫn được xây dựng theo mô hình "được mọi người sử dụng" - các trang web không phải API, CAPTCHA và "trò chơi hóa nhỏ" của các quy trình gây ra lượng lớn trở ngại và các điểm nghẽn giống như các hạn chế về sinh thái và thể chế hơn là trí thông minh của mô hình.

Đây cũng là một trong những lý do Manus tham gia sự kiện Stripe: hai bên đang thúc đẩy việc hoàn tất thanh toán trong đại lý, kết nối "nghiên cứu-quyết định- đặt lệnh/ quyết toán" thành một vòng khép kín và sử dụng sự hợp tác về cơ sở hạ tầng để loại bỏ ma sát trên thế giới.

Sau đây là nội dung chính của cuộc trò chuyện, được biên tập bởi GeekPark:

H: Hãy cho chúng tôi biết đôi nét về bạn. Bài đăng gần đây trên blog của bạn về "Kỹ thuật ngữ cảnh" thật sự truyền cảm hứng, và tôi nghĩ đó là một tài liệu đọc thiết yếu cho bất kỳ ai ở đây đang phát triển các tác nhân AI. Lần tôi đi ăn trưa với các kỹ sư, họ luôn nói về nó, nên giờ tôi phải ngồi chỗ khác (cười). Nhưng với những ai ở đây có thể chưa quen thuộc với Manus, bạn có thể chia sẻ hành trình và viễn cảnh mong đợi của mình không?

A: Cảm ơn Paul. Rất vui được ở đây. Manus đang xây dựng một đặc vụ AI tổng quát.

Nhiều tổ chức nghiên cứu và công ty đang cố gắng xây dựng một bộ não - một mô hình ngôn ngữ lớn. Nhưng chúng tôi cho rằng đây không phải là một ý tưởng hay từ góc độ người tiêu dùng. AI cần có khả năng thực sự hành động và hoàn thành công việc, vì vậy chúng tôi đã xây dựng Manus.

Cách tiếp cận của chúng tôi là trao quyền cho AI bằng một trong những phát minh vĩ đại nhất của lịch sử: máy tính đa năng. Bằng cách trao cho máy tính AI khả năng làm mọi thứ con người có thể, Manus thực sự có thể hoàn thành nhiệm vụ. Ví dụ: nó có thể giúp bạn tạo bài thuyết trình, lên kế hoạch cho các chuyến đi, và thậm chí quản lý sự hiện diện trên mạng xã hội của bạn—mặc dù tôi không khuyến khích điều này.

Người dùng của chúng tôi thực sự yêu thích Manus. Chúng tôi đã ra mắt Manus vào tháng 3 và đã đạt được tỷ lệ thu nhập(RRR) khoảng 90 triệu đô la, và sẽ sớm vượt quá 100 triệu đô la.

Tôi nghĩ đây là một thành tựu to lớn đối với một startup nhỏ như chúng tôi. Nhưng quan trọng hơn, nó cho thấy AI Agent không còn chỉ là một thuật ngữ thông dụng trong nghiên cứu nữa, mà thực sự đang được ứng dụng và phát triển.

Tôi có thể chia sẻ với bạn một câu chuyện nhỏ về cách chúng tôi xây dựng Manus.

Chúng tôi thực sự lấy cảm hứng từ các ứng dụng mã hóa tác nhân. Ví dụ, các sản phẩm lập trình AI như Cursor đã thu hút rất nhiều sự chú ý.

Là kỹ sư, chúng tôi đương nhiên sử dụng Cursor. Nhưng chúng tôi rất ngạc nhiên khi thấy nhiều người không phải kỹ sư trong công ty cũng sử dụng Cursor. Tất nhiên, họ không viết phần mềm, mà sử dụng nó để trực quan hóa dữ liệu hoặc thậm chí viết bài. Họ bỏ qua mã bên trái và chỉ giao tiếp với AI để hoàn thành công việc.

Điều này khiến chúng tôi nhận ra rằng chúng ta nên khái quát hóa cách tiếp cận này và trao quyền cho những người không phải lập trình viên. Đây là một trường hợp ứng dụng của AI.

H: Chúng ta ngày càng nghe nhiều về tác nhân AI và AGI. Ông có thể giúp chúng tôi phân biệt rõ hơn giữa hai khái niệm này không? Tác nhân AI và AGI có ý nghĩa gì với ông và Manus?

A: Chúng tôi cho rằng đây là một câu hỏi rất hay.

Ngày nay, hầu như mọi thứ đều được gọi là "tác nhân". Ví dụ, một số người gọi micro là "máy thu thanh thân thiện hoàn cảnh".

Nhưng ít nhất chúng ta cũng lập luận rằng Agent nên là một tập hợp con của AI ứng dụng. Hãy cùng lùi lại một bước và xem xét các danh mục ứng dụng AI phổ biến.

Hầu hết mọi người đều đã quen thuộc với hai loại công cụ tạo sinh: chatbot, chẳng hạn như ChatGPT, và các công cụ tạo sinh như MidJourney hoặc Sora. Trong các hệ thống này, thường chỉ có hai nhân vật: người dùng và mô hình. Bạn tương tác với mô hình và nhận kết quả. Mặt khác, các tác nhân (agent) khác biệt ở chỗ, ngoài người dùng và mô hình, chúng còn bổ sung thêm một yếu tố quan trọng thứ ba: hoàn cảnh.

Khái niệm "hoàn cảnh" thay đổi tùy thuộc vào loại tác nhân. Ví dụ, trong một tác nhân dựa trên thiết kế, hoàn cảnh có thể là một khung vẽ (canvas) hoặc một đoạn mã. Với Manus, mục tiêu của chúng tôi là làm cho tác nhân hiện diện trong một máy ảo hoặc thậm chí toàn bộ internet. Điều này cho phép tác nhân quan sát hoàn cảnh, quyết định hành động tiếp theo và điều chỉnh hoàn cảnh thông qua các hành động. Điều này làm cho Manus trở nên vô cùng mạnh mẽ.

Ví dụ, trong Manus, bạn có thể bày tỏ nhu cầu của mình, và nó sẽ mở trình duyệt, xuất bản trang web và đặt vé máy bay cho bạn. Tôi thích ví dụ này bởi vì, mặc dù việc đặt vé máy bay nghe có vẻ đơn giản, nhưng thực ra AI đang trực tiếp thay đổi thế giới thực—kết quả không phải là kết quả đầu ra của mô hình, mà là tấm vé trên tay bạn. AI thực sự can thiệp vào thế giới của bạn. Đây chính là cái mà chúng ta gọi là tác nhân.

Nói một cách đơn giản, tác nhân là một hệ thống AI có thể tương tác với hoàn cảnh thay mặt cho người dùng.

Về AGI, thuật ngữ này thường được nhắc đến, và nhiều người đồng nhất nó với siêu trí tuệ. Chúng tôi cho rằng rằng AGI là một hệ thống có thể tận dụng khả năng chung của các mô hình AI để hoàn thành nhiều nhiệm vụ mà không cần thiết kế đặc biệt.

Chúng tôi cho rằng rằng "mã hóa tác tử" là con đường dẫn đến AGI. Nó không phải là một khả năng chuyên biệt, mà đúng hơn, nếu bạn trao nó cho máy tính, nó có thể làm được hầu hết mọi thứ mà máy tính có thể làm. Do đó, đối với chúng tôi, điều kiện tiên quyết cho AGI là xây dựng một hoàn cảnh đủ hoàn thiện để khả năng này phát triển mạnh mẽ.

H: AI thực sự hữu ích trong những trường hợp nào hiện nay? Nó sẽ hữu ích ở đâu trong tương lai? Khi nào thì thời đại iPhone sẽ đến?

A: Về phần các tác nhân, nếu chỉ xét về khả năng của mô hình, các mô hình hàng đầu hiện nay đã rất tuyệt vời, gần như đạt đến cấp độ "siêu nhân". Chúng có thể vượt trội hơn hầu hết chúng ta trong các cuộc thi toán học hoặc suy luận logic.

Nhưng tôi cho rằng các mô hình vẫn giống như "não trong chai" và nếu muốn thực sự mạnh mẽ, chúng phải tương tác với thế giới thực và chạm đến thực tại. Thật không may, đây chính là nơi vấn đề bắt đầu.

Ví dụ, nếu bạn yêu cầu AI thực hiện một số nhiệm vụ thường xuyên, nó thực sự rất giỏi trong nhiệm vụ lặp lại. Ví dụ, một sản phẩm như Deep Research chỉ đơn giản là tổng hợp thông tin và đưa ra kết quả, và kết quả đầu ra sẽ hiển thị ở đó.

Ví dụ, hầu như mọi thứ ngày nay đều được thiết kế cho con người - không chỉ trong thế giới thực mà còn trong thế giới kỹ thuật số. Ví dụ, các công cụ web giống như các trò chơi nhỏ, thiếu API hoặc giao diện chuẩn. CAPTCHA thì phổ biến, chặn các tác nhân ở khắp mọi nơi.

Vì vậy, tôi cho rằng AI hoạt động rất tốt trong nhiệm vụ khép kín, độc lập, nhưng khi tham gia vào thế giới thực, nó sẽ gặp phải trở ngại.

Khi nào thì thời đại iPhone sẽ đến? Tôi nghĩ đó không phải là vấn đề kỹ thuật, mà là hạn chế về mặt thể chế. Đây không phải là vấn đề mà một công ty khởi nghiệp như chúng tôi có thể tự mình giải quyết.

Tôi cho rằng điều này sẽ đòi hỏi một sự chuyển đổi dần dần, đòi hỏi toàn bộ hệ sinh thái phải cùng nhau phát triển. Điều này cũng đòi hỏi các công ty như Stripe phải đầu tư vào cơ sở hạ tầng. Ví dụ, hiện chúng tôi đang tích hợp API thanh toán Agentic mới của Stripe. Tất cả chúng ta cần phải hợp tác cùng nhau.

H: Chúng ta có thể nói về một số tình huống điển hình mà người dùng sử dụng Manus không? Họ sử dụng nó như thế nào? Trong đó thể hiện sức mạnh gì?

A: Đúng vậy, chúng tôi thuộc thế hệ đại lý hiện tại, nhưng chúng tôi đã chứng kiến ​​nhiều trường hợp sử dụng tuyệt vời.

Ví dụ, chúng tôi vừa chuyển đến Singapore và cần thuê một đại lý bất động sản để giúp chúng tôi tìm nhà. Một đại lý thực thụ (cười).

Hiện nay, các công ty này đã sử dụng Manus: họ sử dụng Manus để phân tích vị trí công ty và khu vực mà nhân viên muốn sống dựa trên nhu cầu của khách hàng và đưa ra các khuyến nghị phù hợp.

Tôi thấy điều này rất thú vị vì nó thuộc nhóm "nhu cầu dài hạn". Nhìn chung, không có sản phẩm AI chuyên dụng nào được thiết kế cho tình huống cụ thể này, nhưng vì Manus là một tác nhân đa năng, nó có thể đáp ứng những nhu cầu này. Chúng tôi cho rằng rằng nhu cầu dài hạn rất đáng được quan tâm.

Nhìn từ góc độ vĩ mô, đây có thể là một chuỗi dài, nhưng đối với những người dùng cụ thể, đây là công việc hàng ngày của họ. Kịch bản này đặc biệt có giá trị.

Điều này cũng giống như bối cảnh công cụ tìm kiếm ngày nay. Nếu bạn đang tìm kiếm nội dung chung, chất lượng kết quả sẽ tương đương nhau dù bạn sử dụng Google hay Bing. Vậy tại sao mọi người lại chọn cái này trong đó? Có lẽ vì một công cụ tìm kiếm cung cấp cho họ kết quả phù hợp hơn tại thời điểm cụ thể đó. Tuy nhiên, nếu bạn đang tìm kiếm nội dung được cá nhân hóa cao hoặc chuyên biệt, sự khác biệt sẽ càng rõ rệt hơn. Đây là điểm chúng tôi cho rằng các tác nhân đa năng có lợi thế.

Vậy làm thế nào để cải thiện nó? Chúng tôi đã suy nghĩ về điều này rất lâu, bởi vì chúng tôi cho rằng mọi thứ đều phải được lập trình. Nếu bạn giao một máy tính cho AI, thì cách nó tương tác với hoàn cảnh thực chất là thông qua lập trình.

Chúng tôi cho rằng có hai điểm cần cải thiện. Thứ nhất là khả năng mở rộng. Sẽ thế nào nếu bạn có thể khuếch đại khả năng của Agent lên gấp trăm lần?

Manus gần đây đã phát hành một tính năng mới có tên là Nghiên cứu Rộng (Wide Research). Ý tưởng cơ bản của nó là cho phép một tác nhân duy nhất tạo ra hàng trăm tác nhân khác cùng làm việc để hoàn thành nhiệm vụ. Như bạn đã biết, nếu bạn chỉ sử dụng AI để hỗ trợ các nhiệm vụ nhỏ, bạn thường có thể tự mình hoàn thành chúng. Tuy nhiên, nếu nhiệm vụ cực kỳ lớn và không thể hoàn thành một mình, chẳng hạn như nghiên cứu quy mô lớn, việc có hàng trăm tác nhân làm việc song song có thể cực kỳ hiệu quả.

Thứ hai, chúng ta cần cho phép các tác nhân sử dụng máy tính linh hoạt hơn. Ví dụ, nếu bạn chỉ cung cấp cho tác nhân AI các công cụ được cài đặt sẵn, không gian hành động của nó sẽ bị giới hạn trong những công cụ đó. Nhưng hãy tưởng tượng nếu bạn là một lập trình viên và có sẵn tài nguyên của toàn bộ cộng đồng mã nguồn mở.

Ví dụ, khi in 3D, việc chỉnh sửa trực tiếp các thông số của mô hình rất khó khăn. Tuy nhiên, nếu bạn tìm được thư viện phù hợp trên GitHub và cài đặt trực tiếp, vấn đề của bạn có thể được giải quyết. Tại Manus, chúng tôi tối ưu hóa tính phổ quát và đã đề xuất một khái niệm gọi là "hiệu ứng mạng lưới của các công cụ".

Đây là một ví dụ thú vị: Nhiều người dùng sử dụng Manus để trực quan hóa dữ liệu. Như bạn đã biết, điều này đôi khi có thể gây ra sự cố ở châu Á, chẳng hạn như phông chữ không chính xác khi hiển thị ký tự tiếng Trung trong biểu đồ. Có lẽ một số người dùng chuyên nghiệp sẽ mã hóa cứng các quy tắc, chẳng hạn như sử dụng phông chữ nào khi xuất văn bản tiếng Hàn. Tuy nhiên, cách tiếp cận này có thể dẫn đến các hệ thống ngày càng cứng nhắc.

Cách tiếp cận của chúng tôi là bổ sung một khả năng đơn giản vào hệ thống: kiểm tra hình ảnh. Kết quả thật đáng ngạc nhiên—bởi vì các mô hình ngày nay đã rất thông minh, chúng có thể tự động kiểm tra hình ảnh trực quan được tạo ra, nhận dạng lỗi và sau đó tự động sửa lỗi. Chúng tôi nhận thấy rằng việc bổ sung tính linh hoạt cho công cụ có thể giải quyết được nhiều vấn đề hơn so với các quy tắc được mã hóa cứng.

H: Đây là thời điểm thú vị. Tôi thực sự rất hào hứng. Tôi chỉ ước mình được 30 tuổi trở lại (cười). Nói về nghiên cứu y học, tôi biết Manus cũng rất mạnh trong lĩnh vực đó. Bạn đã thấy người dùng nào sử dụng Manus cho nghiên cứu y học chưa?

A: Nhiều người đã sử dụng Manus cho mục đích nghiên cứu, không chỉ trong y học. Chúng tôi thấy điều này khá thú vị vì hiện nay có rất nhiều sản phẩm được gọi là "nghiên cứu chuyên sâu" thu thập lượng lớn thông tin và thực hiện một số phân tích, nhưng cuối cùng, chúng chỉ cung cấp cho bạn một tệp hoặc tài liệu Markdown. Như vậy là chưa đủ.

Thông thường, các nhà nghiên cứu thực sự cần những kết quả mà họ có thể cung cấp trực tiếp cho cấp trên hoặc đội ngũ của mình. Do đó, chúng tôi đã cải thiện chất lượng đầu ra của kết quả nghiên cứu trong Manus. Ví dụ, trong nghiên cứu y khoa, báo cáo chính thức, chẳng hạn như báo cáo slide, thường được yêu cầu. Do đó, chúng tôi phải tối ưu hóa khả năng đầu ra của AI để đáp ứng nhu cầu của các nhà nghiên cứu. Điều này tạo ra một trải nghiệm"được trang bị".

Ví dụ, nhiều người dùng hiện nay sử dụng Manus để nghiên cứu trước, sau đó mới trực tiếp tạo trang web. Bạn sẽ thấy cách này hoàn toàn khác với cách xây dựng trang web truyền thống.

Bạn biết đấy, xây dựng một trang web không khó; việc đảm bảo dữ liệu đáng tin cậy và chính xác mới là thách thức. Do đó, chúng tôi cho rằng tốt nhất là hoàn thành toàn bộ quy trình chỉ trong một buổi duy nhất, trong một bối cảnh chung. Bằng cách này, nghiên cứu và nhận xét của bạn có thể được chuyển đổi liền mạch thành kết quả cuối cùng. Đó chính là điều chúng tôi làm tại Manus.

H: Nhiều quốc gia đang thảo luận về tương lai của nhân loại và tác động kinh tế của nó trong thời đại AI. Ông ứng xử việc thay thế việc làm? Những cơ hội việc làm mới nào sẽ xuất hiện?

A: Bạn bè và nhà đầu tư thường hỏi chúng tôi câu hỏi này. Khi ra mắt Manus, ban đầu chúng tôi cho rằng nếu có thể xây dựng một đại lý như vậy, mọi người sẽ tiết kiệm được rất nhiều thời gian và kiếm tiền dễ dàng.

Nhưng trên thực tế, chúng tôi nhận thấy viễn cảnh mong đợi này chưa được hiện thực hóa hoàn toàn. Thông qua nghiên cứu người dùng lượng lớn, chúng tôi phát hiện ra rằng người dùng thực sự làm việc hiệu quả hơn sau khi sử dụng ứng dụng. Điều này là do họ trở nên hiệu quả hơn và thực sự có thể làm được nhiều việc hơn những gì họ vốn đã giỏi. Đây chính là điểm đầu tiên.

Thứ hai, chúng tôi cho rằng Manus mở ra một không gian hoàn toàn mới. Chúng tôi đã thảo luận về máy ảo và điện toán đám mây. Chúng tôi coi Manus đóng nhân vật là một "nền tảng điện toán đám mây cá nhân". Ví dụ, điện toán đám mây đã tồn tại trong nhiều thập kỷ, nhưng chủ yếu là đặc quyền dành cho các kỹ sư. Chỉ chúng tôi mới có thể khai thác sức mạnh của đám mây thông qua lập trình. Những người làm việc trí óc thông thường không thể sử dụng nó.

Nhưng giờ đây, với các tác nhân AI như Manus, con người có thể đưa ra chỉ dẫn bằng ngôn ngữ tự nhiên và để AI thực hiện. Điều này mở ra một cấp độ năng suất hoàn toàn mới. Đây chính là những gì chúng tôi mang lại.

Cuối cùng, về vấn đề "thay thế", tôi cho rằng thực sự rất khó. Ví dụ, các đại lý bất động sản sử dụng Manus hàng ngày để hoàn thành công việc hàng ngày. Nhưng như bạn đã biết, AI không bao giờ có thể thay thế giao tiếp trực tiếp đối diện đại lý và khách hàng. Chúng tôi là một công ty AI, và ngay cả các video ra mắt của Manus cũng do Manus viết kịch bản, nhưng tôi vẫn xuất hiện trong các video đó vì nó liên quan đến niềm tin. Và niềm tin không thể hoàn toàn giao phó cho AI.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận