저자: 리위안
편집자: 징규

싱가포르로 이주한 마누스는 일반 AI 에이전트에 대한 생각을 멈추지 않았습니다.
오늘 싱가포르에서 열린 Stripe 투어에서 Manus의 공동 창립자이자 수석 과학자인 Ji Yichao(Peak)는 Stripe의 아시아 태평양 및 일본 지역 최고 매출 책임자인 Paul Harapin과 대화를 나누었습니다.
회의에서 마누스 AI는 최근 운영 데이터를 공개했습니다. 마누스 AI의 매출 실행률(RRR)은 9천만 달러에 도달했으며 곧 1억 달러를 넘어설 것으로 예상됩니다.
마누스 AI의 샤오 홍은 매출 실행률이 당월 매출에 12를 곱한 값이며 현금 수입과 동일하지 않다고 즉시 밝혔습니다. 많은 AI 제품이 연간 결제 옵션을 제공하는데, 이는 매출이 아닌 보증금으로 간주되어야 합니다. 샤오 홍은 "이 사실을 [잘못] 공개하면 1억 2천만 달러를 훨씬 넘는 수치가 나올 수 있습니다."라고 말했습니다.
지이차오는 비즈니스 데이터 외에도 마누스 팀이 일반 에이전트의 다음 단계에 대해 어떻게 생각하는지, 그리고 미래에 AI 에이전트와 AGI의 차이점은 무엇인지에 대해서도 공유했습니다.
"요즘은 거의 모든 것을 에이전트라고 부르죠. 예를 들어, 어떤 사람들은 마이크를 '환경 인식 라디오 수신기 에이전트'라고 부르기도 합니다." 지이차오가 농담조로 말했다.
그는 또한 일반 에이전트의 역량을 확장하기 위한 두 가지 주요 방향을 제시했습니다. 첫째, 다중 에이전트 협업을 사용하여 실행 규모를 확장합니다(대규모 설문 조사에서 수백 개의 병렬 하위 에이전트를 파생하는 것과 같음). 둘째, 에이전트를 위한 더 큰 "도구 표면"을 열어 에이전트의 역량을 몇 가지 사전 설정된 API에 묶지 않고 프로그래머처럼 오픈 소스 생태계를 호출하고, 라이브러리를 설치하고, 시각화 후에 이를 보고 수정할 수 있도록 합니다.
지이차오는 오늘날의 디지털 세계가 여전히 "사람에게 사용된다"는 패러다임에 따라 구축되어 있다고 언급했습니다. API가 없는 웹 페이지, CAPTCHA, 프로세스의 "미니 게임화"는 대량 마찰을 야기하고 병목 현상은 모델 지능보다는 생태적, 제도적 제약과 더 유사합니다.
이는 Manus가 Stripe 이벤트에 참여한 이유 중 하나이기도 합니다. 두 당사자는 에이전트 내에서 지불 완료를 촉진하고, "조사-결정-주문/결제"를 폐쇄 루프로 연결하며, 인프라 협업을 사용하여 세계의 마찰을 제거하고 있습니다.
GeekPark가 편집한 대화의 핵심은 다음과 같습니다.
Q: 자기소개 부탁드립니다. 최근 블로그에 올린 "Contextual Engineering" 글은 정말 큰 영감을 주었고, AI 에이전트를 개발하는 모든 분들께 꼭 읽어야 할 글이라고 생각합니다. 엔지니어들과 점심을 먹을 때마다 그 이야기를 많이 해서, 지금은 다른 자리에 앉아야 했습니다. (웃음) 그런데 마누스에 대해 잘 모르시는 분들을 위해 마누스의 여정과 비전을 공유해 주시겠어요?
A: 고맙습니다, 폴. 여기 와서 정말 반갑습니다. 마누스는 범용 AI 에이전트를 개발하고 있습니다.
많은 연구 기관과 기업들이 거대한 언어 모델인 두뇌를 구축하려고 노력하고 있습니다. 하지만 저희는 소비자 관점에서 이는 좋은 생각이 아니라고 생각합니다. AI는 실제로 행동하고 작업을 완료할 수 있어야 하므로, Manus를 개발했습니다.
우리의 접근 방식은 인류 최고의 발명품 중 하나인 범용 컴퓨터를 AI에 제공하는 것입니다. AI 컴퓨터가 인간이 할 수 있는 모든 일을 할 수 있도록 함으로써, Manus는 실제로 작업을 수행할 수 있습니다. 예를 들어, 프레젠테이션 작성, 여행 계획, 심지어 소셜 미디어 관리까지 도울 수 있지만, 개인적으로는 추천하지 않습니다.
저희 사용자들은 Manus를 정말 좋아합니다. 3월에 Manus를 출시한 이후 이미 약 9천만 달러의 매출 실행률(RRR)을 달성했으며, 곧 1억 달러를 넘어설 것으로 예상됩니다.
저희 같은 작은 스타트업에게는 큰 성과라고 생각합니다. 하지만 더 중요한 것은, AI 에이전트가 더 이상 연구 분야의 유행어가 아니라 실제로 적용되고 자리 잡고 있다는 것을 보여준다는 것입니다.
저는 마누스를 어떻게 건설했는지에 대한 작은 이야기를 여러분과 공유하고 싶습니다.
실제로 에이전트 코딩 애플리케이션에서 많은 영감을 얻었습니다. 예를 들어, Cursor와 같은 AI 프로그래밍 제품이 많은 관심을 받았습니다.
엔지니어로서 우리는 당연히 커서를 사용합니다. 하지만 회사 내 많은 비엔지니어들도 커서를 사용한다는 사실에 놀랐습니다. 물론 그들은 소프트웨어를 작성하는 것이 아니라, 데이터 시각화나 기사 작성에 커서를 사용합니다. 왼쪽 코드는 무시하고 AI와 소통하며 작업을 수행합니다.
이를 통해 우리는 이러한 접근 방식을 일반화하고 프로그래머가 아닌 사람들에게도 권한을 부여해야 한다는 것을 깨달았습니다. 이는 AI의 활용 사례입니다.
Q: AI 에이전트와 AGI에 대한 이야기가 점점 더 많아지고 있습니다. 이 두 개념을 더 명확하게 구분해 주시겠습니까? AI 에이전트와 AGI는 당신과 마누스에게 어떤 의미인가요?
A: 아주 좋은 질문이라고 생각합니다.
요즘은 거의 모든 것을 "에이전트"라고 부릅니다. 예를 들어, 어떤 사람들은 마이크를 "환경 인식 라디오 수신기"라고 부릅니다.
하지만 적어도 우리는 에이전트가 응용 AI의 하위 집합이어야 한다고 주장합니다. 한 걸음 물러나 일반적인 AI 응용 분야를 살펴보겠습니다.
대부분의 사람들은 이미 두 가지 유형의 생성 도구에 익숙합니다. ChatGPT와 같은 챗봇과 MidJourney 또는 Sora와 같은 생성 도구입니다. 이러한 시스템에서는 일반적으로 사용자와 모델, 두 가지 역할만 있습니다. 사용자는 모델과 상호작용하고 결과를 받습니다. 반면 에이전트는 사용자와 모델 외에도 세 번째 핵심 요소인 환경이라는 요소를 제공한다는 점에서 다릅니다.
"환경"의 개념은 에이전트의 유형에 따라 달라집니다. 예를 들어, 디자인 기반 에이전트에서 환경은 캔버스나 코드 조각일 수 있습니다. Manus의 목표는 에이전트를 가상 머신이나 인터넷 전체에 구현하는 것입니다. 이를 통해 에이전트는 환경을 관찰하고, 다음 작업을 결정하고, 동작을 통해 환경을 수정할 수 있습니다. 이러한 점이 Manus의 강력한 기능을 더욱 강력하게 만듭니다.
예를 들어, Manus에서 원하는 것을 말하면 브라우저가 열리고 웹페이지가 게시되며, 자동으로 항공편을 예약해 줍니다. 제가 이 예시를 좋아하는 이유는 항공편 예약이 간단해 보이지만, 실제로는 AI가 현실 세계를 직접적으로 변화시키고 있기 때문입니다. 결과는 모델의 출력이 아니라, 바로 당신 손에 있는 티켓입니다. AI는 진정으로 당신의 세계에 개입합니다. 이것이 바로 에이전트입니다.
간단히 말해서, 에이전트는 사용자를 대신하여 환경과 상호 작용할 수 있는 AI 시스템입니다.
AGI라는 용어는 자주 언급되며, 많은 사람들이 이를 초지능과 동일시합니다. 우리는 AGI가 AI 모델의 일반적인 역량을 활용하여 특별한 설계 없이도 다양한 작업을 수행할 수 있는 시스템이라고 생각합니다.
저희는 "에이전트 코딩"이 AGI로 가는 길이라고 믿습니다. 이는 전문적인 역량이 아니라, 컴퓨터에 부여하면 컴퓨터가 할 수 있는 거의 모든 일을 할 수 있는 역량입니다. 따라서 AGI의 전제 조건은 이 역량이 제대로 발휘될 수 있도록 충분히 포괄적인 환경을 구축하는 것입니다.
Q: AI는 현재 어떤 상황에서 진정으로 유용할까요? 미래에는 어떤 분야에서 활용될까요? 아이폰 시대는 언제 올까요?
A: 에이전트의 경우, 모델 성능만 본다면 오늘날의 주력 모델들은 이미 놀랍습니다. 거의 "초인적" 수준에 달하죠. 수학 경시대회나 논리적 추론에서 우리 대부분을 능가할 수 있습니다.
하지만 저는 모델이 여전히 "병 속의 뇌"와 같다고 생각합니다. 모델이 진정으로 강력해지려면 현실 세계와 상호작용하고 현실에 닿아야 합니다. 안타깝게도 바로 여기서 문제가 시작됩니다.
예를 들어, AI에게 일상적인 작업을 시키면 실제로는 반복적인 작업에 매우 능숙합니다. 예를 들어, Deep Research와 같은 제품은 단순히 정보를 집계하여 결과를 제공하고, 그 결과는 그대로 표시됩니다.
예를 들어, 요즘 거의 모든 것이 인간을 위해 설계되었습니다. 물리적 세계뿐만 아니라 디지털 세계에서도 마찬가지입니다. 예를 들어 웹 도구는 API나 표준 인터페이스가 없는 미니 게임과 같습니다. CAPTCHA는 어디에나 존재하며, 어디에서나 차단 기능을 수행합니다.
그래서 저는 AI가 폐쇄적이고 독립적인 작업에서는 매우 잘 수행하지만, 현실 세계에 개입하게 되면 장애물에 부딪힌다고 생각합니다.
아이폰 시대는 언제 올까요? 기술적인 문제라기보다는 제도적인 한계라고 생각합니다. 저희 같은 에이전트 스타트업이 혼자서 해결할 수 있는 문제가 아닙니다.
저는 이러한 변화에는 점진적인 변화가 필요하며, 전체 생태계가 함께 발전해야 한다고 생각합니다. 또한 Stripe와 같은 기업들이 인프라에 투자해야 합니다. 예를 들어, 저희는 현재 Stripe의 새로운 Agentic 결제 API를 통합하고 있습니다. 우리 모두의 협력이 필요합니다.
Q: 사용자들이 Manus를 사용하는 몇 가지 일반적인 시나리오에 대해 말씀해 주시겠습니까? 어떻게 사용하시나요? 어떤 능력을 보여주나요?
A: 네, 저희는 현세대 에이전트이지만, 훌륭한 사용 사례를 많이 보았습니다.
예를 들어, 저희는 싱가포르로 이사를 막 왔고, 살 곳을 찾는 데 도움을 줄 부동산 중개인을 고용해야 했습니다. 진짜 중개인이요 (웃음).
이제 이러한 여행사들은 이미 Manus를 사용하고 있습니다. 이들은 Manus를 사용하여 고객의 요구에 따라 회사의 위치와 직원들이 살고 싶어하는 지역을 분석하고, 이에 맞는 추천을 생성합니다.
이 부분이 "롱테일 수요"에 속한다는 점에서 매우 흥미롭습니다. 일반적으로 이 특정 시나리오에 맞춰 설계된 전용 AI 제품은 없지만, Manus는 범용 에이전트이기 때문에 이러한 요구를 충족할 수 있습니다. 롱테일 수요는 주목할 만한 가치가 있다고 생각합니다.
거시적인 관점에서 보면 롱테일(long tail)일 수 있지만, 특정 사용자에게는 일상적인 업무입니다. 이 시나리오는 특히 중요합니다.
오늘날의 검색 엔진 환경과 비슷합니다. 일반적인 콘텐츠를 검색하는 경우 Google이나 Bing을 사용하든 검색 결과의 품질은 비슷합니다. 그렇다면 사람들은 왜 둘 중 하나를 선택하는 걸까요? 아마도 특정 시점에 더 적합한 결과를 제공하는 검색 엔진이 있기 때문일 것입니다. 하지만 고도로 개인화되거나 특화된 콘텐츠를 검색하는 경우, 그 차이는 더욱 커집니다. 바로 이 부분에서 범용 에이전트가 유리하다고 생각합니다.
그렇다면 어떻게 개선할 수 있을까요? 우리는 오랫동안 고민해 왔습니다. 모든 것은 프로그래밍을 통해 이루어진다고 믿기 때문입니다. 컴퓨터를 AI에 맡기면, 컴퓨터가 환경과 상호작용하는 방식은 결국 프로그래밍을 통해 이루어집니다.
개선할 부분이 두 가지 있다고 생각합니다. 첫째는 확장성입니다. 에이전트의 기능을 100배로 확장할 수 있다면 어떨까요?
마누스는 최근 '와이드 리서치(Wide Research)'라는 새로운 기능을 출시했습니다. 이 기능의 기본 아이디어는 단일 에이전트가 수백 개의 에이전트를 생성하여 협력하여 특정 작업을 완료할 수 있도록 하는 것입니다. 아시다시피, AI를 활용하여 소규모 작업을 수행하는 경우라면 직접 완료할 수 있는 경우가 많습니다. 하지만 대규모 연구처럼 규모가 매우 크고 혼자서는 완료하기 어려운 작업이라면, 수백 개의 에이전트가 병렬로 작업하는 것이 매우 효과적일 수 있습니다.
둘째, 에이전트가 컴퓨터를 더욱 유연하게 사용할 수 있도록 해야 합니다. 예를 들어, AI 에이전트에게 미리 설정된 도구만 제공한다면, 에이전트의 행동 영역은 해당 도구로 제한됩니다. 하지만 당신이 프로그래머이고 오픈 소스 커뮤니티 전체의 리소스를 자유롭게 활용할 수 있다고 상상해 보세요.
예를 들어, 3D 프린팅을 할 때 모델의 매개변수를 직접 수정하기는 어렵습니다. 하지만 GitHub에서 적절한 라이브러리를 찾아 직접 설치하면 문제를 해결할 수 있습니다. Manus에서는 보편성을 최적화하고 "도구의 네트워크 효과"라는 개념을 제안했습니다.
흥미로운 예를 하나 들어보겠습니다. 많은 사용자가 데이터 시각화에 Manus를 사용합니다. 아시다시피 아시아 지역에서는 차트에 중국어 문자를 표시할 때 잘못된 글꼴이 표시되는 등 문제가 발생할 수 있습니다. 일부 전문 사용자는 한국어 텍스트를 출력할 때 사용할 글꼴과 같은 규칙을 하드코딩할 수도 있습니다. 하지만 이러한 접근 방식은 점점 더 경직된 시스템으로 이어질 수 있습니다.
저희는 시스템에 간단한 기능인 이미지 검사 기능을 추가하는 방식을 택했습니다. 결과는 놀라웠습니다. 오늘날의 모델은 이미 매우 똑똑해서 생성된 시각화를 자동으로 검사하고, 오류를 인식하고, 자동으로 수정할 수 있기 때문입니다. 도구에 유연성을 더하면 기존 규칙에 고정된 것보다 더 많은 문제를 해결할 수 있다는 것을 알게 되었습니다.
Q: 요즘 정말 신나는 시기죠. 정말 기대돼요. 다시 서른 살이 되면 좋겠어요. (웃음) 의학 연구 얘기가 나와서 말인데, Manus가 그 분야에서도 강하다는 건 알고 있어요. 혹시 의학 연구에 Manus를 사용하는 사용자를 보신 적 있나요?
A: 많은 사람들이 의학 분야뿐만 아니라 이미 많은 연구에 Manus를 사용하고 있습니다. 시중에는 대량 정보를 수집하고 분석을 수행하는 소위 "심층 연구" 제품이 많지만, 결국에는 마크다운 파일이나 문서만 제공한다는 점이 흥미롭습니다. 이것만으로는 부족합니다.
연구자들은 종종 상사나 팀에 직접 전달할 수 있는 결과를 절실히 필요로 합니다. 따라서 Manus에서 연구 결과의 출력 성능을 향상시켰습니다. 예를 들어, 의학 연구에서는 슬라이드 프레젠테이션과 같은 공식적인 보고서가 필요한 경우가 많습니다. 따라서 연구자들의 요구를 충족하도록 AI의 출력 기능을 최적화해야 합니다. 이를 통해 "도구화된" 경험을 제공할 수 있습니다.
예를 들어, 많은 사용자가 Manus를 사용하여 먼저 조사를 한 후 바로 웹사이트를 제작합니다. 이는 기존의 웹사이트 구축 방식과는 완전히 다르다는 것을 알게 될 것입니다.
웹사이트 구축은 어렵지 않습니다. 하지만 데이터의 신뢰성과 정확성을 확보하는 것은 쉽지 않습니다. 따라서 저희는 공유된 환경에서 전체 과정을 단일 세션으로 완료하는 것이 최선이라고 생각합니다. 이렇게 하면 여러분의 연구와 통찰력을 최종 결과로 완벽하게 구현할 수 있습니다. 이것이 바로 Manus에서 하는 일입니다.
Q: 많은 국가에서 AI 시대에 인류의 미래와 경제적 영향에 대해 논의하고 있습니다. 일자리 대체에 대해 어떻게 생각하십니까? 어떤 새로운 일자리가 생길 것으로 예상하십니까?
A: 저희 친구들과 투자자들이 종종 이런 질문을 합니다. Manus를 처음 출시했을 때, 저희는 그런 에이전트를 만들 수 있다면 사람들이 시간을 많이 절약하고 쉽게 돈을 벌 수 있을 거라고 생각했습니다.
하지만 실제로는 이 비전이 완전히 실현되지 않았다는 것을 알게 되었습니다. 대량 사용자 조사를 통해 사용자들이 앱을 사용한 후 실제로 더 많은 작업을 수행한다는 것을 발견했습니다. 이는 사용자들이 더 효율적으로 업무를 처리하고 이미 잘하는 일들을 더 많이 할 수 있게 되었기 때문입니다. 이것이 첫 번째 핵심입니다.
둘째, Manus는 완전히 새로운 영역을 열어준다고 생각합니다. 가상 머신과 클라우드 컴퓨팅에 대해 논의해 왔습니다. Manus는 "개인용 클라우드 컴퓨팅 플랫폼"의 역할을 한다고 생각합니다. 예를 들어, 클라우드 컴퓨팅은 수십 년 동안 존재해 왔지만, 주로 엔지니어들의 특권이었습니다. 프로그래밍을 통해 클라우드의 힘을 활용할 수 있었던 것은 우리뿐이었고, 일반 지식 근로자는 이를 활용할 수 없었습니다.
하지만 이제 Manus와 같은 AI 에이전트를 통해 사람들은 자연어로 명령을 내리고 AI가 이를 실행하도록 할 수 있습니다. 이는 완전히 새로운 차원의 생산성을 가능하게 합니다. 이것이 바로 우리가 제공하는 것입니다.
마지막으로, "대체"에 대해서는 사실 어렵다고 생각합니다. 예를 들어 부동산 중개인은 Manus를 매일 사용하여 업무를 처리합니다. 하지만 아시다시피 AI는 중개인과 고객 대면 대면 소통을 결코 대체할 수 없습니다. 저희는 AI 회사이고, Manus 출시 영상조차도 Manus가 각본을 작성하지만, 제가 영상에 계속 등장하는 이유는 신뢰에 관한 것이기 때문입니다. 그리고 신뢰는 AI에게만 전적으로 맡겨둘 수 없습니다.



