전체 리뷰: 마누스는 어떻게 생겨났나요?

03-12

이 기사는 기계로 번역되었습니다

원문 표시

"에이전트의 문제는 기본 모델의 역량이 아니라 '정렬'일 수 있습니다."

작년에 가장 많은 정신적 영양을 얻은 기업가 이야기는 Dify의 창립자인 장루위의 이야기였습니다.

내가 그를 처음 본 것은 2023년 "시크릭 포럼" 행사 때였다. 그 자리에는 수많은 스타들의 이름이 있었지만 "장루위"라는 세 글자는 그다지 눈길을 끌지 못했다. 2024년에 다시 만났을 때 Dify는 전혀 다른 이야기였습니다. 화려한 배경이 없는 기업가가 모든 사람이 사업 모델에 대해 의심하는 가운데 세계에서 가장 성공적인 AI 오픈소스 제품 중 하나를 만들어냈습니다.

지난 1년 동안 이 회사에서 일어난 일화들, 예를 들어 "보수적이고 방어하기 어려운" 일본 시장에서의 예상치 못한 인기는 저에게 "기업가 정신"에 대한 더 깊은 이해를 제공했습니다. 예상치 못한 일들이 많고, 더 많은 행운이 필요합니다. 궁극적으로, 당신은 끊임없는 변화와 당신의 바람에 반하는 일에서 벗어날 방법을 찾을 수 있는 능력이 필요합니다.

이제 비슷한 이야기가 또 다른 주목받는 기업가, Manus.im의 샤오 홍과 그의 팀에게도 일어나고 있습니다.

4개월 전, 샤오홍은 혼란스러운 상황을 언급했습니다. "팀은 0에서 1로 가는 데는 능숙하고 기회를 잡는 능력도 강하지만, 1에서 N으로 시작하면 상태가 썩 좋지 않습니다."

그의 과거 경험에 따르면, 그의 대부분의 창업 프로젝트는 비교적 안정적이고 상당한 수익을 창출했으며, 그의 이전 회사도 성공적으로 인수되었습니다. 2023년, 그의 신규 회사 "Butterfly Effect"는 브라우저 플러그인 Monica.im을 사용하여 백가지 모델 전쟁의 AI 내러티브에 참여하여 뛰어난 제품 경험을 갖춘 가장 빠르게 성장하는 AI 애플리케이션 중 하나가 되었습니다. 그는 순조로운 여정을 겪고 있는 기업가인 것 같습니다. 그가 이 모든 것을 성취했을 때 그의 나이는 불과 32세였다.

하지만 실제로 그는 별로 기분이 좋지 않았습니다. 샤오홍의 견해에 따르면, 소위 '창업자의 연쇄적 퇴장'과 0에서 1로 끊임없이 나아가는 소위 즐거움은 포위 공격과 같습니다. 0에서 1로 기회를 잡는 능력은 매우 강하고 매우 만족스럽지만, 반면에 다시 해야 할지에 대한 걱정도 있습니다.

업계 관계자들은 2024년에는 Monica.im과 같은 메모리 기능을 갖춘 AI 보조 기기가 Doubao와 같은 강력한 경쟁자의 압박에 직면하게 될 것이며, 2023년처럼 구현이 쉽지 않을 것으로 보고 있습니다. Monica.im은 0에서 1까지는 잘 맞지만, 1에서 N까지는 못 맞출 수도 있습니다.

그가 혼란스러워하는 이유는 "팀이 다음으로 더 어려운 일, 더 높은 한계가 있는 일을 해야 하기 때문"이며, 1에서 N까지 확장될 수 있는 일을 탐색해야 하기 때문이었습니다.

이전에 Monica.im에 주목한 많은 사람들은 이 "더 높은 한계를 가진 더 어려운 것"이 오랫동안 소문이 돌았지만 팀에서 아직 출시하지 않은 AI 브라우저를 가리킨다고 생각했습니다.

이제 보니 제가 틀렸던 것 같습니다.

이 탐색에서 가장 어려운 부분은 사실 이미 출시된 AI 브라우저를 포기하고, "ChatGPT 순간"을 위한 다음 AI 제품을 찾고, 일반 에이전트의 목표를 찾고, 최신 Manus.im을 만드는 것이었습니다.

마누스의 혁신 정도와 앞으로 어느 수준에 도달할 수 있을지가 화제가 되고 있다. 하지만 여전히 주목할 만한 것은 상황이 자신의 의지와 다르게 흘러갈 때 그 방향을 찾아가는 과정과 그 방향이다. Manus.im은 이 팀이 1에서 N까지 모든 것을 달성하도록 두지 않을 수도 있고, Monica.im의 추진력을 복제하지 못할 수도 있습니다. 하지만 이 회사 이름처럼 "나비 효과"처럼 많은 작은 행동과 결정이 의도치 않게 미래에 큰 영향을 미칩니다. "점을 연결하라", 내일의 길은 오늘의 경험 속에 숨겨질 것입니다.

01 마누스의 독특한 제품 경험은 'AI 브라우저'를 만들면서 얻은 교훈에서 비롯된다

작년 중반부터 말까지, '나비효과' 팀이 개발한 AI 브라우저는 업계에서 '반공개' 비밀이 됐다. 공식적으로 공개된 제품은 바로 마누스로, 엄청난 관심을 모았습니다.

Manus를 직접 경험해 보셨거나 데모 영상을 보셨다면 챗봇이나 일부 에이전트형 애플리케이션과 상당히 다르다는 걸 느끼실 겁니다. Manus는 비동기식과 병렬로 작업을 수행할 수 있습니다.

두바오, 키미, 컴퓨터유즈 등의 앱을 열어서 질문하면 답변을 기다려야 합니다. 그렇지 않을 경우, 답변 중이거나 작업을 수행하는 중에 말을 걸면 이전 답변/작업이 중단되고 ABAB 릴레이 스타일의 대화만 가능합니다.

하지만 Manus.im은 여전히 챗봇처럼 보이지만, 예를 들어 20개의 질문을 하고 동시에 작업을 수행하게 할 수 있습니다. 비디오 시청, 문서 작성, 게임 등 컴퓨터 작업을 방해하지 않고 다른 작업을 할 수 있습니다. 이러한 작업 중 하나라도 완료되거나 실행 중에 문제가 발생할 경우 Manus에서 알려드릴 수 있습니다. 작업 중간에 사고가 빗나간 것을 발견하면 언제든지 대화 상자에 프롬프트를 추가할 수 있으며, 새로운 맥락에서 계속해서 생각하고 작업을 실행합니다.

이러한 경험은 비동기적이고 병렬화 가능하며, 마치 실제 인턴 팀이 여러분의 업무를 맡아주는 것과 같습니다.

실제로, 비동기적 경험을 위한 마누스의 제품 아키텍처 디자인은 팀이 이전에 공개되지 않은 제품인 AI 브라우저에서 얻은 교훈에서 시작되었습니다. 이는 팀이 많은 노력을 기울였지만 작년 10월에 브라우저 작업을 중단하기로 결정한 이유이기도 합니다.

브라우저 컴퍼니는 2024년 10월 25일에 Arc 브라우저의 새로운 기능 개발을 중단하고, 더 간단하고 사용하기 쉬운 AI 브라우저를 만들기 위해 새로운 브라우저인 Dia에 리소스를 전환하기로 결정했다고 발표했습니다. ｜출처: Arc 공식 홈페이지

"AI 브라우저에서 AI는 끊임없이 사용자를 방해합니다." 단일 사용자 시나리오를 위해 설계되었기 때문에 AI를 사용하면 더 이상 사용할 수 없습니다. AI가 작동하기 시작하면 작동하는 것을 볼 수만 있고 시작하기 어렵습니다. AI가 당신의 마우스와 컴퓨터를 낚아채는 것을 보면, 다시 낚아채기조차 두렵기 짝이 없다. 게다가 AI가 실수로 키보드나 마우스를 건드려 전체 프로세스가 중단되고 처음부터 다시 시작해야 하는 상황이 생길까 봐 두렵기도 하다.

이로 인해 팀은 두 가지 결정을 내리게 되었습니다.

단기적으로 컴퓨터를 직접 컴퓨터 용도로 사용하는 것은 실행 불가능합니다.
AI는 브라우저를 사용해야 하지만, 당신의 브라우저에서는 안 됩니다. 클라우드에서 가장 좋은 자체 브라우저가 있어야 하며, 마지막으로 결과에 대한 피드백을 제공해야 합니다.

텐센트 테크놀로지의 장샤오쥔과의 인터뷰에서 샤오홍은 팀이 Jasper에서 ChatGPT, Monica, Cursor, Devin으로 이어지는 제품 형태를 요약할 때 "인간 프로그래머"인 데빈이 이 비동기적 경험의 아키텍처와 매우 일관성을 유지한다는 것을 발견했다고 언급했습니다.

이는 때때로 컴퓨터에 이 라이브러리를 설치해야 할지 확인하도록 요청하거나 명령줄 작업을 실행하여 예/아니요를 입력하라고 요청하는 Windsurf와는 다릅니다. 이는 컴퓨터에 심각한 손상을 주거나 무언가와 충돌이 있을 수 있기 때문입니다. Windsurf는 다음 단계로 진행하기 전에 "예"를 입력하라고 요청하지만, 책임을 전가하려는 것입니다.

그래서 Manus 팀의 관점에서 "Chatbot은 클라우드에 컴퓨터를 두고, 그 컴퓨터에서 브라우저를 통해 작성한 코드와 검사할 내용을 실행해야 합니다. 가상 서버이기 때문에 고장이 나도 상관없고, 그냥 다른 서버를 얻을 수 있습니다. 현재 작업이 완료된 후 서버를 해제할 수도 있습니다."

데빈이 수직적 분야와 핵심 엔지니어를 선택한 반면, 마누스의 팀은 웹과 앱 모두에서 사용할 수 있는 범용 소비자 등급 AI 보조원을 선택했다는 점이 주목할 만합니다. 도구를 호출하고 지시에 따라 직장과 삶에서 다양한 작업을 완료할 수 있는 일반적인 AI 보조원입니다. 미래에는 소비자 수준의 저렴한 가격으로 작업 결과도 제공할 것입니다.

02. 구조는 덜하고 지능은 더하다

명확한 아이디어와 목표를 가지고 있다면, 다음 단계는 그 아이디어를 실현하는 것입니다. 마누스는 어떻게 그것을 할 수 있었을까?

제품 파트너인 장 타오(Zhang Tao)에 따르면, 이를 위해서는 대형 모델에 컴퓨터를 장착하고, 시스템 권한(코드 저장소, 전문 데이터 쿼리 웹사이트 등과 같은 비공개 API에 대한 액세스)을 부여하고, 특정 교육을 제공해야 합니다.

이런 방식으로 AI는 이 컴퓨터를 사용하여 브라우저를 열고, 도구를 예약하기 위한 조치를 취한 다음, 도구에서 생성된 피드백을 기반으로 실제 세계에 미치는 조치의 영향을 관찰할 수 있습니다. 그런 다음 다음 단계를 생각하고, 조치를 취하고, 다시 관찰합니다... 이는 AI가 탐색 및 연구 중에 작업을 완료하는 프로세스입니다. 이 기간 동안 마누스는 당신의 "훈련"을 통해 당신의 요구 사항을 점점 더 잘 이해하게 될 것입니다. 미래에는 당신이 요구 사항을 명확하게 정의하지 않더라도 각 작업에서 축적된 지식을 바탕으로 "신의 뜻을 추측"할 수 있습니다.

화웨이의 젊은 천재이자 로제닉 AI의 창립자인 리보지에(Li Bojie)는 마누스가 다른 제품과 다른 점이 하나 있다고 생각합니다. 즉, 괴짜 프로그래머의 방식으로 문제를 해결한다는 것입니다. ｜이미지 출처: WeChat 스크린샷

마누스 제품의 개념은 팀의 제품 연습을 통해 점차 명확해졌습니다. '구조는 줄이고, 지능은 높이자'.

이것은 또한 마누스 팀이 "아하, 잠깐!"이라고 느낀 순간이었습니다. 예를 들어, 올해 1월에 팀에서 일어난 일은 다음과 같습니다.

마누스가 GAIA 테스트 세트에서 다음과 같은 질문을 했을 때: "National Geographic 스타일과 비슷한 YouTube 비디오 링크에서 다양한 펭귄이 화면에 들어오고 나갑니다. 프레임에 동시에 나타나는 펭귄의 종류는 몇 가지입니까? 펭귄의 종류는 몇 가지입니까?"

그러자, 마법같은 일이 일어났습니다.

마누스는 먼저 비디오 링크를 열었고, 그다음 그의 첫 번째 행동은 "K를 누르세요"였습니다. 그런 다음 그는 어떤 펭귄이 어떤 프레임에 나타나는지 기록하기 위해 하나하나 스크린샷을 찍었고, 마지막으로 펭귄이 가장 많은 프레임에는 3종이 있다는 결론을 내렸습니다. 마누스는 다시 확인하러 갈 것이고, 다음 행동은 "3번을 누르세요"입니다... 최종 확인 결과 답은 3입니다.

마누스 건설을 담당한 사람들은 그 역량의 한계를 잘 알고 있어야 하지만, 팀에게는 "항상 놀라움이 있다"는 것이 현실입니다. 놀라운 점은 마누스가 질문에 정답을 맞혔다는 것뿐만 아니라, 우리가 수년간 컴퓨터와 유튜브를 사용해 왔음에도 불구하고 키보드의 'K'와 '3' 키가 무엇을 의미하는지 모른다는 것입니다.

눈앞에 펼쳐진 흐릿한 광경을 바라보며, 팀은 마누스를 따라가 다시 한 번 그렇게 했습니다. 키보드의 "K"는 일시 정지 키로, 마누스가 일시 정지하고 스크린샷을 하나씩 찍어서 어떤 프레임에 어떤 종류의 펭귄이 나타나는지 기록할 수 있습니다. "3"도 단축키로, 0에서 9까지는 각각 진행률 막대의 0%에서 90%를 나타내고, 3은 진행률 막대의 30%를 나타냅니다. 이 키는 비디오의 그 1초를 정확하게 찾아낸 다음, 이 그림에 몇 종류의 펭귄이 있는지 사람들에게 알려줄 수 있습니다.

"이 프로세스는 기존의 챗봇과는 다릅니다. 첫째, 자막 대신 YouTube 사진을 볼 수 있습니다. 둘째, YouTube 단축키를 사용한다는 것을 발견했습니다. 질문에 답한 것에 충격을 받았습니다." 샤오 홍은 또한 Tencent Technology와의 이전 인터뷰에서 이 장면을 언급했습니다.

갑자기, 저는 Manus가 프로그래밍에서 인간보다 뛰어날 뿐만 아니라 사람들이 매일 사용하는 웹과 앱에 대해 사람들이 상상할 수 있는 것보다 훨씬 더 많은 지식을 가지고 있다는 것을 알게 되었습니다. 전지전능한 AI로서, 그것은 모든 도구의 모든 경로와 수단을 이해한 다음 가장 좋은 방법을 선택할 수 있습니다.

이를 통해 팀은 다시 한 번 "구조는 줄이고 지능은 늘린다"는 생각을 하게 되었습니다. 즉, AI에 대한 인위적 제한을 최소화하고 AI가 무엇을 해야 하는지 가르치는 대신 스스로 진화하여 역할을 수행하도록 하는 것입니다.

마누스 공식 웹사이트의 맨 아래에는 마누스의 가장 중요한 발견이 조용히 소개되어 있습니다. "구조는 줄이고 지능은 늘렸다" ｜스크린샷 출처: Manus

이것은 Manus가 출시된 날 "Butterfly Effect"의 공동 창립자이자 수석 과학자인 Peak의 설명과 확장된 사고입니다. "구조는 줄이고 지능은 늘리자"는 Manus의 가장 중요한 첫 번째 원칙입니다.

데이터의 품질이 충분히 우수하고, 모델이 충분히 스마트하며, 아키텍처가 충분히 유연하고, 엔지니어링이 충분히 견고하다면 컴퓨터 사용, 심층 연구, 코딩 에이전트와 같은 개념은 제품 기능에서 자연스럽게 나타나는 기능으로 바뀔 것입니다.

첫 번째 원칙으로 돌아가면 제품 형태에 대한 새로운 사고방식을 가질 수 있습니다. · AI 브라우저는 브라우저에 AI를 추가하는 것이 아니라 AI를 위한 브라우저를 만드는 것입니다.

AI 검색은 인덱스에서 정보를 회수하고 요약하지 않지만, 사용자의 허가 하에 AI가 정보를 얻을 수 있도록 허용합니다.
· GUI를 작동시켜도 사용자 기기의 제어권은 사라지지 않으며, AI가 자체 가상 머신을 가질 수 있게 됩니다.
코드를 작성하는 것이 궁극적인 목표는 아니지만, 다양한 문제를 해결하기 위한 보편적인 매체입니다.
웹사이트를 만드는 데 있어 어려운 점은 프레임 구축하는 데 있지 않고, 콘텐츠를 의미 있게 만드는 데 있습니다.
주의가 필요한 전부는 아닙니다. 사용자의 주의를 자유롭게 함으로써만 DAU를 재정의할 수 있습니다.
· ···

"Less Structure, More Intelligence"를 반복적으로 발견하고 실천하면서 Manus는 기대 이상의 결과를 낳았습니다. GAIA 벤치마크에서 Pass@1 점수를 받았고, 이는 OpenAI Deep Research의 cons@64 점수를 넘어선 수치입니다. 동시에 내부 테스트에서 Manus는 Y Combinator W25의 전담 에이전트 제품 시나리오의 76%를 직접 커버할 수 있었습니다.

03 “에이전트의 문제점은 기본 모델 역량이 아니라 '정렬'에 있을 수 있다”

이제 이러한 통찰력의 가치가 더 큰 규모로 논의되고 있습니다.

Hugging Face의 설립자이자 CEO인 클레멘트 델랑그는 X 플랫폼에서 Peak의 발견을 제안했는데, 이는 생각해볼 만한 가치가 있습니다. 지능형 에이전트의 능력은 기본 모델에 갇힌 것이 아니라 GPT-3와 InstructGPT(ChatGPT)의 차이처럼 정렬의 문제입니다. 일부 오픈소스 기반 모델은 "질문의 복잡성에 관계없이 한 번에 모든 질문에 답변"하도록 간단히 훈련되었지만, 이는 챗봇 시나리오에서 요구되는 사항이며, 에이전트의 경로에 대한 사후 훈련을 수행하는 것만으로도 엄청난 차이를 만들어낼 수 있습니다. ｜스크린샷 출처 : X

마누스는 MCP(모델 컨텍스트 프로토콜)를 도입하지 않았지만, 대신 AI가 자체 코드를 작성하여 API를 호출하여 다양한 롱테일 작업을 처리할 수 있도록 허용했습니다. ｜스크린샷 출처 : X

지난 며칠 동안 Manus에 대한 토론에서 제가 가장 자주 들은 질문은 "일반 AI 에이전트"가 가능한가, 그리고 그 경계는 어디인가? 였습니다.

Peak의 견해에 따르면, 인간과 세상 간의 상호작용은 실제로 눈, 손, 귀를 사용하는 매우 표준적인 상호작용이기 때문에, 액션 공간이 잘 정의되어 있다면 원래 인간이 수행하는 프로세스에 에이전트를 내장하는 것이 가능해야 합니다.

인간은 다양한 도구를 사용하여 수직적 분야에서 심층적인 작업을 완료할 수 있으므로 에이전트 자체가 충분한 지식을 가지고 있고 적절한 훈련을 받았으며 세상과 상호 작용할 수 있는 좋은 인터페이스를 갖추고 있다면 인간처럼 일할 수 있어야 하며 심지어 에이전트가 특정 SaaS 제품을 사용하도록 허용해야 합니다. 예를 들어, Manus.im 공식 웹사이트에 제시된 주택 구매 사례에서는 실제로 AI가 부동산 분야에 전념한 SaaS 제품과 함께 작동할 수 있습니다.

그는 도구를 사용하는 사람의 집단이 누구냐가 아니라 도구를 사용하는 사람의 경계가 명확하게 정의되어야 한다고 생각합니다. 마누스는 특정 업무를 수행하는 사람을 시뮬레이션하는 것이 아니며, R&D나 제품 관리자와 같은 역할 기반 지능형 에이전트도 아닙니다. 대신, 일을 처리할 수 있는 사람을 시뮬레이션하고, 인턴이 일하는 방식을 시뮬레이션합니다.

마누스의 다중 에이전트 시스템은 계획과 실행의 분리를 의미합니다.

실행자 측면에서, 마누스는 현재 프로그래밍, 장기 계획 및 단계별 문제 해결 능력에서 앞서 있는 클로드를 채택했으며, 또한 사후 훈련을 위해 일련의 Qwen 모델도 사용하고 있습니다.

마누스는 어제 알리바바 통이첸원과 전략적 협력을 체결하고, 마누스의 모든 기능을 국내 모델과 해시레이트 플랫폼에서 구현하기로 약속했습니다. ｜이미지 출처: 마누스

마누스는 기획 부분에서 많은 일을 했습니다.

현재 시장에 나와 있는 쉘프 API나 모델은 기본적으로 챗봇 시나리오에 맞춰져 있기 때문에, 훈련 중에 사용자가 아무리 복잡한 질문을 하더라도 훈련의 최적화 목표는 사용자의 질문에 하나의 답변으로 명확하게 대답하는 것입니다. 하지만 이는 실제로 에이전트가 필요로 하는 계획과는 정반대입니다.

따라서 시장에 나와 있는 기존 모델을 "정렬" 없이 에이전트 시나리오에 직접 사용하면 이 모델은 항상 빠른 성공을 위해 서두르다가 대화에서 요점 요약처럼 "흐릿한" 결과를 낼 것입니다.

"정렬 방법은 달라야 합니다. 저희 팀은 특별한 정렬을 위해 다른 데이터가 필요하다고 생각합니다."라고 샤오 홍은 말했습니다.

작년 10월, Peak는 또한 Zhihu에 OpenAI o1 관심 프로젝트(Steiner 오픈 소스 모델)를 재현하려는 시도의 진행 상황과 실패를 기록했습니다. 사실, 이 프로젝트는 바로 Manus 플래너의 단계별 계획에 대한 예비 연구를 하는 것이었습니다.

일반적으로 Manus는 일을 하는 사람을 시뮬레이션하는데, 이는 Manus를 범용 AI 보조원으로 제품 정의한 팀 정의입니다. 경계에 대해 생각해 보면, 팀에서는 아직 탐색 중이고 사용자 사용 사례가 더 필요할 듯합니다.

Manus가 출시되기 전에 Tencent Technology와의 인터뷰에서 Xiao Hong은 실제로 Manus의 다재다능함에 대한 초기 생각을 언급했습니다. "매우 핵심적인 문제 또는 제품 관리자의 중요한 책임은 사용자의 기대치를 제어하는 것입니다. 예를 들어, 세상의 모든 것을 할 수 있다고 가정하면: 어떻게 100만 달러를 벌 수 있을까요? 이것은 에이전트가 수행해야 할 일이 아닙니다. 하지만 모든 사람의 기대치를 더 합리적으로 만들기 위해 점점 더 구체적인 예를 들 수 있다면 모든 사람이 더 순조롭게 사용할 것입니다."

04「쉘에는 용도가 있다」, 쉘을 가장 잘 이해하는 팀

2월 27일 이른 아침, Manus의 제품 파트너인 장 타오와 수석 과학자 지가차오(피크)는 둘 다 Manus.im 순위 결과를 보고 눈물을 흘렸습니다. 마누스는 GAIA 벤치마크에서 OpenAI의 딥 리서치를 앞지르고, 예상치 못한 결과를 OpenAI의 약 1/10 비용(작업당 2달러)으로 달성했습니다.

이미지 출처: Manus.im

수십 명으로 구성된 이 팀은 에이전트의 경쟁 상황이 업계 전체에서 합의에 도달했을 때 범용 에이전트 제품을 생산한 최초의 팀 중 하나가 되었습니다. 또한 제품 엔지니어링과 프런트엔드 상호 작용 경험에서도 독특합니다.

일을 완수한 후 얻는 긍정적인 피드백은 다른 어떤 것보다 낫습니다. 스타트업 팀에게 이보다 더 나은 동기를 부여하는 방법은 없습니다. 하지만 그 전에 마누스는 어떻게 생겨났을까? 이 팀이 이것을 만든 이유는 무엇입니까?

"오늘날의 모델 역량은 복잡하고 여러 단계의 작업을 완료할 수 있습니다. 그런 제품이 없어서 사람들이 체험할 수 없을 뿐입니다." 샤오 홍이 Tencent Technology와의 이전 인터뷰에서 언급한 통찰력을 사용하여 이 문제를 이해할 수 있습니다.

동시에, " 에이전트 제품을 만들 기회가 있는 팀은 많지 않습니다. 복잡한 역량이 많이 필요하기 때문입니다. 브라우저를 호출해야 하기 때문에 Chatbot, AI 프로그래밍 및 브라우저에 대한 경험이 있어야 합니다. 또한 LLM의 경계에 대한 좋은 감각이 필요합니다. 현재 어느 수준으로 발전했는지, 그리고 앞으로 어느 수준으로 발전할지에 대한 감각이 있어야 합니다. 무엇보다도 이러한 모든 역량을 동시에 갖춘 회사는 많지 않으며, 이러한 역량을 갖춘 회사는 매우 구체적인 업무 을 하고 있을 수 있습니다. 우연히도 우리 반 친구 중 일부는 이러한 일을 함께 할 시간이 있습니다."

"정확히".

운영자와 같은 대규모 엔드투엔드 모델이 출시될 때까지 기다리지 않고도 에이전트 역할을 수행할 수 있는 수준에 모델 성능이 도달했다는 것을 적절한 시기에 발견하세요.
정렬에 문제가 있다는 것도 발견되었습니다.
또한, 저는 챗봇과 AI 브라우저의 모든 확장 기능을 개발하게 되었습니다.
동시에 저는 소위 '쉘링'이라 불리는 대규모 모델 응용 제품을 다루어 왔기 때문에 LLM에 대한 감각이 예민합니다.

"나비효과" 팀은 현재 이러한 보편적 에이전트를 만드는 데 필요한 모든 요소를 달성했으므로 이제 업계에서 비교적 완전한 보편적 에이전트를 보유하게 되었습니다.

Manus를 시작하는 데 결정적인 순간에 대해 물었을 때 Peak는 더 자세한 내용을 알려주었습니다. 그는 "기업가 정신에는 '깨끗한' 피벗이 없다"고 말했고, 모든 것이 일관되고 명확한 경계가 없다고 말했습니다.

"제품을 만들 때 외부 상황에도 세심한 주의를 기울일 겁니다." 당시에는 여러 가지가 있었습니다. 하나는 브라우저를 만들 때 클라이언트 측 모델을 만들었다는 것입니다. 나중에 브라우저가 요구하는 시나리오가 매우, 매우 광범위하고 기능이 다르다는 것을 알게 되었습니다. 그 과정에서 기본 모델이 강해지는 속도가 가속화되어 에이전트와의 갭이 정렬 문제일 수 있다는 것을 알게 되었습니다. 외부 세계에서는 대규모 언어 모델이 점차 수렴되어 벽에 부딪힌다고 느낄 수도 있습니다.

동시에 외부 세계도 변화하고 있었습니다. 커서는 작년 초부터 인기를 끌기 시작했고, 그 뒤를 이어 윈드서프와 데빈이 뒤따랐습니다. 이는 프로그래밍 분야에서 에이전트가 인기를 얻게 된 사실과 일치하며, 인기를 얻은 방식이 점진적으로 이루어졌다는 것입니다. Cursor는 프로그래머가 프로그래밍 효율성을 개선하기 위한 조종사입니다. Windsurf부터 일부 자동화된 프로세스가 점진적으로 도입되어 로컬 머신에서 더 강력한 자동화 기능을 사용할 수 있습니다. Devin은 새로운 수준의 자동화에 도달했습니다.

VC 추세도 일관적입니다. 예를 들어, 작년과 그 전해에 YC는 두 가지 유형의 회사에 투자했습니다. 하나는 Browser base와 같은 클라우드 기반 브라우저이고, 두 번째 유형은 e2b와 같은 가벼운 AI Sandbox 가상 머신입니다.

이는 "모델 인프라가 빠르게 성숙하고 있으며, 인프라 인프라도 빠르게 성숙하고 있음을 보여줍니다. 또한 외부 제품이 점차 더 많은 수용을 얻고 있는 것을 볼 때, 우리는 이것이 모든 것을 투자할 가치가 있는 방향이라고 생각합니다. 이것은 매우 점진적이고 매끄러운 과정입니다. 또한 Chromium과 같은 브라우저의 축적은 원활하게 마이그레이션될 수 있습니다. 이것이 우리가 클라우드에서 브라우저를 개발하는 것을 감히 하는 이유입니다."

요약하자면, 마누스는 요구와 모델에 대한 예리한 인식과 소위 '쉘' 분야에서 축적된 경험을 통해 가능했습니다. 모니카의 시나리오 중 다수는 모델 사후 훈련이 필요합니다. 동시에, 가장 중요한 교훈인 "구조가 적고 지능이 더 많다"는 것이 AI 브라우저의 연습에서 강화되었습니다. 모델의 역량이 에이전트가 되기에 충분하다는 것이 발견되었고, 문제는 정렬에 있었습니다. 그리고 마누스는 3개월 동안 급속한 진화를 이루었습니다.

이전에 "나비 효과" 팀은 "포격"의 가치에 대해 의문을 제기받은 적이 있습니다. 자체적인 빅 모델을 개발하지 않고 기존 빅 모델을 통합하여 모니카를 만들고 채팅, 검색, 읽기, 쓰기, 번역 등의 기능을 통합했습니다. 또한 API에 하나씩 연결하여 많은 작업 실행 시나리오를 통합했습니다. 작년 말에는 사용자 수가 수천만 명에 달했습니다.

이제 두바오, 콰크, 위안바오가 각자의 모니카 제품을 열렬히 홍보하고, 소규모 팀이 기존 기술을 사용하여 최초의 일반 소비자용 에이전트를 만들었을 때, "셸"을 다시 이해할 때가 되었습니다.

"shells"와 "shells"는 정확히 무엇입니까?

샤오홍의 견해에 따르면 모든 혁신은 모델에 의해 이루어지며, 기본적으로 모델이 주도하고 먼저 나타납니다. 셸의 목적은 사용자가 인식할 수 있는 방식으로 모델의 기술적 혁신을 표시하고, 사용자가 가장 잘 인식할 수 있는 방식으로 모델의 혁신적인 기능을 캡슐화하는 것입니다.

이 정의에 따르면, DeepSeek App(생각 사슬 표시 포함)은 DeepSeek-R1의 셸이고, Cursor는 Anthropic Sonnet 3.5의 셸이며, Perplexity는 GPT-4의 셸이고, ChatGPT는 InstructGPT의 셸입니다.

모델 기능이 빠르게 발전함에 따라 "셸"도 발전해야 합니다. 각 세대의 모델 역량이 발전할 때마다 원래 제조업체가 아니라 타사 제조업체가 사용자에게 인식 가능한 가치를 제공하는 경우도 있습니다. 커서가 클로드 3.5 소네트의 사용자가 인지하는 가치를 제시하는 것과 마찬가지입니다.

Monica.im 출시 2주년인 3월 5일에, 왜 이 수십 명의 사람들이 다양한 Deep Research와 OpenAI Operator를 능가하는 제품 경험을 만들었을까요? 답은 셸에 대한 그들의 이해와 실천에 있습니다.

새로운 모델을 위한 에이전트로 활용 가능한 최고의 셸을 만드는 방법은 무엇일까?

Manus의 제작자인 장 타오는 "백엔드에서 전체 아키텍처를 살펴보면 모든 곳에서 끝나지 않은 작업이 대량 있으며, 그 각 장소가 성공의 열쇠이며 제품을 차별화합니다."라고 생각합니다.

팀의 관점에서 가장 중요한 이점은 혁신의 속도입니다. 애플리케이션과 모델 모두 비교적 포화 상태에 도달했습니다. "데이터 플라이휠"과 "네트워크 효과"와 같은 것이 아직 검증되지 않았음에도 불구하고 남은 유일한 핵심 역량은 빠르게 실행하는 것입니다.

"새로운 분야에서는 모든 것이 불확실하고 알려지지 않습니다. 가장 중요한 것은 혁신의 속도입니다. 다양한 방향으로 탐색하고 시행착오를 거쳐야 올바른 길을 빠르게 찾을 수 있습니다." 마누스 팀은 경영 철학, 조직 구조, 산업 프로세스 측면에서 충분히 유연합니다. 새로운 기회가 생기면 제한된 자원 내에서 회사 전체의 모든 리소스를 위에서부터 아래까지 통합하고, 매우 빠른 속도로 결정을 내리고, 실수에 대한 피드백을 받아 적응할 수 있습니다.

왼쪽부터 "나비효과" 수석과학자 피크, CEO 샤오홍, 제품파트너 장타오 | 출처: 인터넷

마누스의 기대에 대해 샤오 홍은 "창구 기간이 있더라도 시도해 볼 만한 가치가 있다"고 믿는다. 그의 사고방식도 지난 1년 동안 극적으로 바뀌었다. 예를 들어, 그는 이제 "내가 시대를 앞서 있다는 것을 깨달았을 때, 나는 더 공격적, 엄청나게 공격적일 것이다. 오늘을 돌이켜보면, 모니카가 23년 동안 충분히 공격적이지 않았다고 느낀다." "자신이 혁신하고 선도하고 있다는 것을 안다면, 공격적이어야 한다."

마누스가 샤오홍과 그의 팀에 경험과 1에서 N으로의 도약을 가져다 줄 수 있을지는 모르겠지만, '껍질'을 가장 잘 이해하는 이 팀은 마음과 손의 합일로 창조를 믿고, 창조가 가져오는 나비 효과도 믿습니다.마누스는 MIT의 모토인 Mens at manus에서 따온 것으로, 마음과 손의 합일을 강조합니다. 단지 읽는 것만으로는 충분하지 않습니다. 읽고 실제 세계에 영향을 미쳐야 합니다. 그럴 때에만 진정한 지식을 얻을 수 있습니다.

앞으로 마누스의 더 많은 데이터가 오픈 소스로 공개되면, 더욱 다양한 나비효과가 공개될 것입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트