편집자: Moonshot
출처: Geek Park
2025년은 에이전트가 가속 페달을 밟는 해입니다.
올해 초 DeepSeek의 놀라움부터 GPT-4o와 Claude 3.5의 연이은 등장까지, 대형 모델의 경계는 끊임없이 재편되었습니다. 하지만 AI 산업 체인을 진정으로 불안하게 만드는 것은 모델의 성능 향상이 아니라 Agent의 등장입니다.
Manus와 Devin과 같은 제품의 인기는 다음과 같은 공감대를 재확인시켜 줍니다. 즉, 대형 모델은 더 이상 단순한 도구가 아니라 자체 일정을 조정할 수 있는 지능형 개체가 될 것입니다.
따라서 에이전트는 빅 모델 다음으로 글로벌 기술 커뮤니티에서 가장 빠르게 합의에 도달한 두 번째 핫 토픽이 되었습니다.
거대 기업의 전략적 재건부터 기업가적 행보의 신속한 후속 조치까지, Agent는 모두가 기대하는 차세대 성장 동력으로 자리 잡고 있습니다. 하지만 C-end 제품들이 활발하게 등장하고 개발자들의 열광적인 반응을 얻고 있지만, 사용자 가치의 폐쇄 루프를 진정으로 구현하는 프로젝트는 드물며, 점점 더 많은 제품들이 "새로운 기술에 맞춰 기존 니즈를 활용해야 하는" 불안감에 사로잡히고 있습니다.
폭염 이후 시장은 다시 안정을 되찾았습니다. '에이전트'는 패러다임의 재구축일까요, 아니면 새로운 포장일까요? 소위 "보편적"이고 "수직적"인 경로 구분이 과연 지속 가능한 시장 공간을 가져올 수 있을까요? 그리고 "새로운 진입"의 이면에는 상호작용 방식의 진화가 있을까요, 아니면 구세계의 투영이 있을까요?
이러한 질문들을 통해, 에이전트의 진정한 한계는 모델 역량이 아니라, 에이전트가 의존하는 기반 인프라에 있음을 알게 될 것입니다. 제어 가능한 운영 환경부터 메모리 시스템, 상황 인식, 도구 호출에 이르기까지, 각 기본 모듈 의 부재는 에이전트가 시연 단계에서 실제 사용 단계로 나아가는 데 가장 큰 장애물입니다.
이러한 기본적인 엔지니어링 문제는 Agent가 "트렌드 장난감"에서 "생산성 도구"로 전환하는 데 가장 큰 장애물이 되며, 현재 가장 확실하고 가치가 높은 기업가적 블루오션이기도 합니다.
공급이 넘쳐나고 수요가 불확실한 이 시점에서, 우리는 이 대화를 통해 점점 더 시급해지는 질문에 답하고자 합니다. 에이전트의 실제 문제와 기회는 어디에 숨겨져 있을까요?
이 심층적인 대화에는 Shixiang Technology의 창립자 Li Guangmi와 Shixiang Technology의 AI 연구 책임자 Zhong Kaiqi가 초대되었습니다. 두 전문가는 제품 형태, 기술 경로, 비즈니스 모델, 사용자 경험, 심지어 인프라 구축까지 다각적인 측면에서 현재 활동하는 주체들의 실질적인 문제와 기회를 분석할 것입니다.
우리는 그들의 사고방식을 따르고, 거대 기업들로 둘러싸인 포커 테이블에서 스타트업을 위한 진정한 기회가 어디에 숨겨져 있는지 살펴보겠습니다. "조종사"에서 "대리인"으로 원활하게 전환되는 실용적인 성장 경로가 단계적으로 검증되는 방식, 그리고 겉보기에 수직적인 분야인 코딩이 AGI로 이어지는 "가장 높은 가치"이자 "핵심 지표"로 간주되는 이유도 알아보겠습니다.
궁극적으로 이러한 대화는 미래로 확장되어 인간과 에이전트 간의 새로운 협력 관계를 엿볼 수 있게 해줄 뿐만 아니라 차세대 지능형 인프라를 구축하는 데 있어 핵심 과제와 무한한 기회에 대해서도 살펴볼 수 있게 해줄 것입니다.
하이라이트
일반 대리인 분야에서 가장 좋은 접근 방식은 "대리인으로서의 모델"입니다.
에이전트를 개발할 때 처음부터 "목표를 염두에 두고 시작"하거나 완전 자동화된 에이전트를 목표로 할 필요는 없습니다. Copilot으로 시작할 수 있습니다. 이 과정에서 사용자 데이터를 수집하고, 사용자 경험을 개선하고, 사용자의 마음을 사로잡은 후, 서서히 변화할 수 있습니다.
AGI는 코딩 환경에서 처음 구현될 수 있습니다. 코딩 환경은 가장 단순하고 AI의 핵심 역량을 발휘할 수 있기 때문입니다. 코딩은 이 세상의 "보편적인 기계"입니다. AI는 코딩을 통해 구축하고 창조할 수 있습니다. 코딩은 특정 단계에서 대규모 모델 산업 전체 가치의 90%를 앗아갈 수 있습니다.
AI 네이티브 제품은 인간만을 위한 것이 아니라 AI에도 서비스를 제공해야 합니다. 진정한 AI 네이티브 제품은 AI와 인간 모두에게 서비스를 제공하는 양방향 메커니즘을 내장해야 합니다.
오늘날의 AI 제품은 "도구"에서 "관계"로 전환되고 있습니다. 사람들은 도구와 관계를 맺는 것이 아니라, 기억력이 뛰어나고, 당신을 이해하며, 당신과 "조화"를 이룰 수 있는 AI와 관계를 맺게 될 것입니다.
다음은 그날 생방송된 "테크 토크 투나잇"의 요약이며, 긱 파크가 정리했습니다.
01 이번 붐으로 어떤 에이전트 상품이 등장했나요?
장펑 : 지난 몇 년간 모두가 Agent에 대해 논의해 왔습니다. 이 주제가 이 단계에서 중요한 주제일 수 있고, 스타트업에게는 흔치 않은 개발 기회일 수 있다고 생각했기 때문입니다.
Shixiang Technology가 Agent 시스템에 대해 심도 있는 연구를 수행하고 관련 제품들을 많이 경험하고 분석한 것을 확인했습니다. 먼저 두 분께 최근 Agent 관련 제품 중 인상 깊었던 제품은 무엇이었는지, 그리고 그 이유는 무엇인지 여쭤보고 싶습니다.
리광미 : 제가 가장 인상 깊었던 두 가지는 다음과 같습니다. 하나는 Anthropic의 클로드의 프로그래밍 능력이고, 다른 하나는 OpenAI ChatGPT의 심층 연구 기능입니다.
클로드에 대해 말씀드리자면, 가장 중요한 것은 프로그래밍 능력입니다. 저는 프로그래밍(코딩)이 AGI를 측정하는 데 가장 중요한 선험적 지표라고 관점 합니다. AI가 대규모로 그리고 엔드 투 엔드로 소프트웨어 애플리케이션을 개발할 수 없다면, 다른 분야의 발전은 더딜 것입니다. 다른 분야의 발전을 가속화하기 전에 먼저 코딩 환경에서 강력한 ASI(인공초지능)를 달성해야 합니다. 다시 말해, 먼저 디지털 환경에서 AGI를 구현한 후 다른 분야로 확장해야 합니다.

세계 최초의 AI 프로그래머 데빈 | 출처: Cognition Labs
Deep Research는 정말 유용해서 거의 매일 사용하고 있습니다. 실제로는 검색 에이전트 역할을 해서 대량 웹 페이지와 자료를 검색할 수 있게 도와줍니다. 사용 경험이 매우 좋았고, 제 연구 영역을 크게 넓혀주었습니다.
장펑 : 카이치 씨, 당신의 관점에서 어떤 제품이 당신에게 깊은 인상을 남겼나요?
케이지 : 제가 에이전트를 관찰하고 활용할 때 일반적으로 따르는 사고 모델을 소개한 후, 각 카테고리에서 대표적인 제품 1~2개를 소개해 드리겠습니다.
우선, 사람들은 종종 "일반 에이전트(General Agent)"와 "수직 에이전트(Vertical Agent)" 중 어떤 것을 선택해야 하는지 묻습니다. 저희는 최고의 일반 에이전트는 "모델로서의 에이전트(Model as Agent)"라고 생각합니다. 예를 들어, 방금 광미(Guangmi)가 언급한 OpenAI의 딥러닝(Deep Research)과 OpenAI가 새롭게 출시한 o3 모델은 실제로 "모델로서의 에이전트"의 표준적인 사례입니다. 이 모델은 대규모 언어 모델(LLM), 컨텍스트, 도구 사용, 환경 등 에이전트의 모든 구성 요소를 결합하여 엔드투엔드 강화 학습 학습을 수행합니다. 학습 후 다양한 에이전트가 수행하는 정보 검색 작업을 완료할 수 있습니다.
제 "대담한 이론"은 이렇습니다. 일반 에이전트에 대한 수요는 기본적으로 정보 검색과 간단한 코드 작성에 집중되어 있으며, GPT-4o는 이미 이 두 가지 범주를 완벽하게 충족했습니다. 따라서 일반 에이전트 시장은 사실상 대형 모델 기업들의 주요 경쟁장이며, 스타트업이 일반적인 니즈만 충족하는 방식으로는 성장하기 어렵다는 것입니다.
제게 가장 큰 인상을 준 스타트업은 기본적으로 수직 분야에 집중하고 있었습니다.
먼저 ToB의 수직적 분야에 대해 이야기하면, 사람들의 업무는 프런트엔드 업무와 백엔드 업무로 나눌 수 있습니다.
백그라운드 작업의 특징은 반복성이 높고 동시성 요구 사항이 높다는 것입니다. 일반적으로 긴 표준 운영 절차(SOP)가 있습니다. 이러한 작업 중 다수는 AI 에이전트가 일대일로 수행하기에 매우 적합하며, 비교적 넓은 탐색 공간에서 강화 학습에 적합합니다. 제가 여기서 공유하고 싶은 대표적인 사례는 다중 에이전트 시스템에 참여하는 AI for Science 분야의 몇몇 스타트업입니다.
이 시스템에는 문헌 검색, 실험 계획, 프런티어 진행 예측, 데이터 분석 등 다양한 과학 연구 과제가 포함됩니다. 이 시스템의 특징은 딥 리서치(Deep Research)처럼 단일 에이전트가 아니라, 과학 연구 시스템에 대한 더 높은 해상도를 달성할 수 있는 매우 복잡한 시스템이라는 것입니다. "모순 발견(Contradiction Finding)"이라는 매우 흥미로운 기능을 통해 두 개의 최고 학술지 논문 간의 모순을 찾는 것과 같은 적대적인 과제를 처리할 수 있습니다. 이는 연구 에이전트의 매우 흥미로운 패러다임을 보여줍니다.
프런트 데스크 업무는 종종 사람들을 응대하고 외부 연락을 담당하는 업무입니다. 현재 의료 분야에서는 간호사 후속 전화, 채용, 물류 커뮤니케이션 등 음성 에이전트가 더 적합합니다.
여기서 HappyRobot이라는 회사를 소개하고 싶습니다. 이 회사는 물류 및 공급망 분야의 전화 통신을 전문으로 하는, 다소 사소해 보이는 시나리오를 발견했습니다. 예를 들어, 트럭 운전사에게 문제가 발생하거나 상품이 도착하면 상담원이 신속하게 연락할 수 있습니다. AI Agent의 매우 특별한 능력은 바로 24시간, 주 7일 신속하게 대응하고 대응하는 것입니다. 이 정도면 대부분의 물류 요구 사항을 충족할 수 있습니다.
위의 두 가지 카테고리 외에도 Coding Agent와 같은 몇 가지 특수한 카테고리도 있습니다.
02 조종사에서 요원으로 성장하는 데 이보다 더 실용적인 방법이 있을까요?
종카이치: 최근 코드 개발 분야에서 기업가 정신에 대한 관심이 뜨겁습니다. 좋은 예가 커서(Cursor)입니다. 커서 1.0 출시는 원래 코파일럿(운전 보조 시스템)처럼 보였던 제품을 완전한 에이전트(Agent) 제품으로 탈바꿈시켰습니다. 백그라운드에서 비동기 방식으로 작동할 수 있고 메모리 기능을 갖추고 있는데, 바로 저희가 에이전트를 구상했던 바로 그 기능입니다.
Devin과의 비교는 매우 흥미롭습니다. 에이전트를 개발할 때 "목표를 염두에 두고 시작"할 필요가 없고 처음부터 완전 자동화된 에이전트를 목표로 삼을 필요가 없다는 영감을 줍니다. Copilot부터 시작할 수 있습니다. 이 과정에서 사용자 데이터를 수집하고, 사용자 경험을 개선하고, 사용자의 마음을 사로잡고, 서서히 변화할 수 있습니다. 중국에서 좋은 성과를 거두고 있는 Minus AI 역시 초기 제품으로 Copilot을 사용했습니다.
마지막으로, "환경" 사고 모델을 사용하여 다양한 에이전트를 구분하겠습니다. 예를 들어, Manus의 환경은 가상 머신, Devin의 환경은 브라우저, Flowith의 환경은 노트북, SheetZero의 환경은 테이블, Lovart의 환경은 캔버스 등입니다. 이 "환경"은 강화 학습에서 환경의 정의와 일치하며, 이는 참고할 만한 분류 방법이기도 합니다.

국내 스타트업 팀이 만든 플로위드 | 출처: 플로위드
장펑 : 커서 사례에 대해 자세히 이야기해 보겠습니다. 그 기반이 되는 기술 스택과 성장 경로는 무엇인가요?
케이지: 자율주행의 사례는 매우 흥미롭습니다. 테슬라는 오늘날까지도 스티어링 휠, 브레이크, 가속 페달을 제거할 엄두를 내지 못하고 있습니다. 이는 AI가 여러 중요한 결정에서 인간을 완전히 능가할 수 없음을 보여줍니다. AI의 능력이 인간과 유사한 한, 일부 중요한 결정은 분명히 인간의 개입을 필요로 할 것입니다. 이것이 바로 커서가 처음부터 명확하게 생각했던 것입니다.
그래서 그들이 처음으로 적용한 기능은 사람들에게 가장 필요한 기능인 자동 완성이었습니다. 그들은 이 기능을 탭 키로 트리거되도록 만들었습니다. Claude 3.5와 같은 모델이 출시되면서 Cursor는 Tab 키의 정확도를 90% 이상으로 높였습니다. 이 정확도 덕분에 작업 흐름에서 5~10번 정도만 사용해도 흐름 경험이 자연스럽게 구현될 것입니다. 이것이 바로 Copilot으로서 Cursor의 첫 단계입니다.
두 번째 단계에서는 코드 리팩토링 기능을 개발했습니다. 데빈과 커서 모두 이 작업을 원했지만, 커서는 더 영리하게 작업했습니다. 대화 상자를 띄우고, 제가 요구 사항을 입력하면 파일 외부에서 병렬 수정 모드를 시작하여 코드를 리팩토링했습니다.
이 기능이 처음 출시되었을 때는 정확도가 높지 않았지만, 사용자들이 코파일럿(Copilot) 기능을 기대했기 때문에 모두가 받아들였습니다. 그리고 모델의 코딩 능력이 빠르게 향상될 것이라는 예측도 정확했습니다. 그래서 제품 기능을 다듬고 모델의 성능이 향상되기를 기다리는 동안, 에이전트의 기능은 자연스럽게 구현되었습니다.
세 번째 단계는 오늘날 우리가 보고 있는 커서 상태입니다. 이는 백그라운드에서 비교적 엔드투엔드 에이전트가 실행되는 것입니다. 이 에이전트는 샌드박스와 유사한 환경을 갖추고 있으며, 업무 중에는 원하지 않는 작업을 할당할 수도 있고, 에이전트는 백그라운드에서 제 컴퓨팅 리소스를 사용하여 작업을 완료할 수 있습니다. 동시에, 저는 가장 하고 싶은 핵심 작업에 집중할 수 있습니다.
마지막으로, 이메일이나 페이슈 메시지를 보내는 것처럼 비동기 상호작용 형태로 결과를 알려줍니다. 이 과정을 통해 부조종사에서 자동조종사(또는 에이전트)로의 전환이 원활하게 이루어집니다.
핵심은 사람들의 상호작용적 사고방식을 파악하고 처음부터 사용자가 동기적 상호작용을 더 기꺼이 받아들이도록 만드는 것입니다. 이를 통해 대량 사용자 데이터와 피드백을 수집할 수 있습니다.
03 코딩이 AGI로 가는 길의 "핵심 테스트 장소"인 이유는 무엇입니까?
장펑 : 광미는 방금 "코딩은 AGI의 핵심입니다. 이 분야에서 ASI(초지능)를 달성하지 못하면 다른 분야에서도 어려울 것입니다."라고 말했습니다. 왜 그럴까요?
리광미: 몇 가지 논리가 있습니다. 첫째, 코드 데이터는 가장 깔끔하고 루프를 닫기 쉬우며, 결과도 검증 가능합니다. 챗봇에는 데이터 플라이휠(상호작용이나 프로세스에서 데이터를 수집하여 AI 모델을 지속적으로 최적화하고, 더 나은 결과와 더 가치 있는 데이터를 생성하는 피드백 루프 메커니즘)이 없을 수도 있다고 생각합니다. 하지만 코드 분야는 여러 단계의 강화 학습을 수행할 수 있기 때문에 데이터 플라이휠을 실행할 수 있는 기회를 가지고 있으며, 코드는 여러 단계의 강화 학습을 실행하는 핵심 환경입니다.
한편으로는 코드를 프로그래밍 도구로 이해하지만, AGI를 구현하기 위한 환경으로 생각하는 것을 선호합니다. AGI는 이 환경에서 가장 먼저 구현될 수 있습니다. 이 환경은 가장 단순하고 AI의 핵심 역량을 발휘할 수 있기 때문입니다. AI가 엔드투엔드 애플리케이션 소프트웨어조차 개발하지 못한다면 다른 분야에서는 더욱 어려울 것입니다. 미래에 대규모 기본 소프트웨어 개발 작업을 대체할 수 없다면 다른 분야에서도 어려울 것입니다.
더욱이, 코딩 능력이 향상됨에 따라 모델의 지시 이행 능력도 향상됩니다. 예를 들어, 매우 긴 프롬프트를 처리할 때 Claude는 분명히 더 뛰어납니다. 이는 모델의 코딩 능력과 논리적으로 연관되어 있다고 추측됩니다.
또 다른 요점은 미래의 AGI가 디지털 세계에서 먼저 실현될 것이라는 점입니다. 향후 2년 안에 에이전트는 사람들이 휴대폰과 컴퓨터에서 하는 거의 모든 일을 할 수 있게 될 것입니다. 간단한 코딩만으로도 가능하고, 만약 코딩이 실패하면 다른 가상 도구를 호출할 수도 있습니다. 따라서 AGI를 디지털 세계에서 먼저 구현하고 더 빠르게 실행하는 것은 매우 중요한 논리입니다.
04 좋은 에이전트를 어떻게 판단하나요?
장펑 : 코딩은 이 세상의 "보편적인 기계"입니다. AI는 코딩을 통해 무언가를 만들고 창조할 수 있습니다. 더욱이 프로그래밍 분야는 비교적 체계적이어서 AI가 활동하기에 적합합니다. 사용자 경험 외에도 에이전트의 품질을 평가할 때, 어떤 관점에서 에이전트의 잠재력을 평가하십니까?
케이지 종 : 좋은 에이전트는 먼저 데이터 플라이휠을 구축하는 데 도움이 되는 환경을 갖춰야 하며, 데이터 자체도 검증 가능해야 합니다.
최근 인류학 연구자들은 RLVR(검증 가능한 보상을 통한 강화 학습)이라는 용어를 언급해 왔습니다. 여기서 "V"는 검증 가능한 보상을 의미합니다. 코드와 수학은 매우 표준적인 검증 가능한 분야입니다. 작업을 완료한 후에는 그 작업이 올바른지 틀린지 즉시 확인할 수 있으며, 데이터 플라이휠은 자연스럽게 구축됩니다.

데이터 플라이휠의 작동 메커니즘 | 출처: NVIDIA
따라서 에이전트 제품을 구축하는 것은 이러한 환경을 구축하는 것입니다. 이러한 환경에서는 사용자 작업의 성공 여부가 중요하지 않습니다. 현재 에이전트는 반드시 실패할 것이기 때문입니다. 핵심은 에이전트가 실패할 경우, 노이즈 데이터가 아닌 신호를 포함하는 데이터를 수집하여 제품 자체의 최적화를 유도할 수 있다는 것입니다. 이 데이터는 강화 학습 환경의 콜드 스타트 데이터로도 활용될 수 있습니다.
둘째, 제품이 충분히 "에이전트 네이티브"인가요? 즉, 제품을 디자인할 때 사람과 에이전트 모두의 요구를 고려해야 합니다. 대표적인 사례가 브라우저 컴퍼니(The Browser Company)입니다. 왜 새로운 브라우저를 만들었을까요? 이전 브라우저는 인간 사용자의 효율성을 향상시키기 위해 설계되었기 때문입니다. 앞으로 새 브라우저를 디자인할 때 AI 에이전트가 직접 여러 새로운 기능을 사용하게 될 것입니다. 이는 제품의 기본 디자인 로직이 변경될 때 매우 중요합니다.
결과에 있어서도 객관적인 평가가 중요합니다.
1. 작업 완료율 + 성공률: 첫째, 사용자가 최소한 피드백을 받을 수 있도록 작업이 완료되어야 합니다. 둘째, 성공률입니다. 10단계 작업의 경우, 각 단계의 정확도가 90%라면 최종 성공률은 35%에 불과합니다. 따라서 각 단계 간의 연결을 최적화해야 합니다. 현재 업계에서는 통과 라인의 성공률이 50%를 넘을 수 있습니다.
2. 비용 및 효율성: 컴퓨팅 비용(토큰 비용)과 사용자 시간 비용을 포함합니다. GPT-4o가 3분 만에 작업을 처리하는 반면 다른 에이전트는 30분이 걸린다면 사용자에게 엄청난 낭비가 될 것입니다. 더욱이, 이 30분 동안의 해시레이트 소비는 막대하여 규모 효과에 영향을 미칩니다.
3. 사용자 지표: 가장 대표적인 지표는 사용자 유지도입니다. 사용자가 제품을 한 번 사용해 본 후 반복적으로 사용할 의향이 있는지 살펴보는 것이 좋습니다. 예를 들어, 일일 활성 사용자/월간 활성 사용자(DAU/MAU) 비율, 다음 달 유지율, 결제율 등이 있습니다. 이러한 지표는 기업이 "가짜 번영"(5분 명성)에 그치는 것을 방지하는 데 중요한 지표입니다.
리광미 : 또 다른 관점을 덧붙이자면, 에이전트와 현재 모델 기능 간의 일치 정도입니다. 현재 에이전트 기능의 80%는 모델 엔진에 의존하고 있습니다. 예를 들어, GPT가 3.5에 도달하면서 여러 라운드로 구성된 대화라는 일반적인 패러다임이 등장했고, 챗봇 제품 형태가 실현 가능해졌습니다. 커서의 부상 또한 모델이 클로드 3.5 수준으로 발전하면서 코드 완성 기능이 확립된 데 기인합니다.
데빈은 사실 꽤 일찍 나왔기 때문에, 창립팀이 모델 역량의 한계를 이해하는 것이 매우 중요합니다. 그들은 모델이 현재와 향후 6개월 동안 어떤 방향으로 나아갈 수 있는지 알아야 하는데, 이는 에이전트가 달성할 수 있는 목표와 밀접한 관련이 있습니다.
장펑 : "AI 네이티브" 제품이란 무엇인가요? AI 네이티브 제품은 단순히 사람이 사용하기 위한 것이 아니라 AI에도 도움이 되어야 한다고 생각합니다.
다시 말해, 제품에 디버깅할 만한 충분한 데이터가 없고 미래의 AI 작업 환경에 맞춰 설계되지 않았다면, AI를 비용 절감 및 효율성 향상 도구로만 사용하는 셈입니다. 이러한 제품은 생명력이 제한적이며 기술의 물결에 쉽게 압도될 수 있습니다. 진정한 AI 네이티브 제품은 AI와 인간 모두에게 서비스를 제공하는 양방향 메커니즘을 내장해야 합니다. 간단히 말해, AI가 사용자에게 서비스를 제공할 때, 사용자 또한 AI에게 서비스를 제공하는 것일까요?
케이지 : 이 개념이 정말 마음에 들어요. 에이전트 데이터는 현실 세계에 존재하지 않거든요. 작업 완료 시 사고 과정을 단계별로 분석할 수 있는 사람은 아무도 없어요. 그렇다면 어떻게 해야 할까요? 한 가지 방법은 전문 주석 업체를 찾는 것입니다. 또 다른 방법은 사용자를 활용하여 사용자의 실제 사용 방식과 에이전트의 자체 운영 프로세스를 파악하는 것입니다.
장펑 : 인간이 에이전트를 통해 AI에 데이터를 "공급"하게 하려면 어떤 종류의 작업이 가장 가치 있을까요?
케이지 : AI에 데이터를 활용하는 것보다는 AI가 가진 강점을 어떻게 강화해야 할지 고민하는 것이 더 중요합니다. 예를 들어, 과학 연구에서 알파고 이전에는 바둑과 수학이 가장 어렵다고 생각했습니다. 하지만 강화 학습을 도입한 후, AI에게 가장 쉬운 분야로 여겨졌습니다. 이는 과학 분야에서도 마찬가지입니다. 인류 역사상 학자가 모든 학문의 구석구석을 이해할 수 있었던 것은 오랜 시간이 지났지만, AI는 가능합니다. 따라서 과학 연구와 같은 작업은 인간에게는 어렵지만 AI에게는 반드시 어려운 것은 아니라고 생각합니다. 그렇기 때문에 이를 뒷받침할 더 많은 데이터와 서비스가 필요합니다. 이러한 유형의 작업은 대부분의 작업보다 검증 가능성이 높습니다. 미래에는 인간이 AI의 "시험관을 흔들어" 결과를 확인하고, 그 결과가 맞는지 틀린지 판단하여 AI가 함께 기술 트리를 밝히도록 도울 수도 있습니다.
리광미 : 초기 데이터 콜드 스타트는 필수적입니다. 에이전트를 구축하는 것은 스타트업을 만드는 것과 같습니다. 창업자는 콜드 스타트를 직접 해야 합니다. 다음으로, 에이전트의 방향을 결정하는 환경 설정이 매우 중요합니다. 그다음에는 보상 시스템을 구축하는 것이 더 중요합니다. 환경과 보상, 이 두 가지 요소가 매우 중요하다고 생각합니다. 이를 바탕으로 에이전트의 창업자는 에이전트의 "CEO" 역할을 수행하면 됩니다. 오늘날 AI는 인간이 이해할 수 없지만 실행할 수 있는 코드를 작성할 수 있습니다. 강화 학습의 엔드 투 엔드 논리를 반드시 이해할 필요는 없습니다. 환경을 구축하고 보상을 설정하기만 하면 됩니다.
05 에이전트의 사업 모델은 어디로 갈까요?
장펑 : 최근 ToB 에이전트, 특히 미국을 중심으로 많은 에이전트들이 생겨나고 있습니다. 이들의 사업 모델과 성장 모델이 바뀌었나요? 아니면 새로운 모델이 등장하고 있나요?
케이지 : 현재 가장 큰 특징은 기업 조직에서 점점 더 많은 제품이 하향식으로 사용되고 있다는 것입니다. 가장 대표적인 제품이 커서(Cursor)입니다. 이 외에도 사람들이 먼저 사용해 보고 싶어 하는 AI 에이전트(AI Agent)나 코파일럿(Copilot) 제품들이 많이 있습니다. 이는 더 이상 CIO를 만나 일대일 계약을 체결해야 하는 전통적인 SaaS 모델이 아닙니다. 적어도 첫 단계는 아닙니다.
또 다른 흥미로운 제품은 의사를 타깃으로 하는 OpenEvidence입니다. OpenEvidence는 먼저 의사 집단을 장악한 후, 점차 의료기기와 의약품 광고를 심어왔습니다. 이러한 업무 병원과의 협상 속도가 매우 느리기 때문에 초기에는 병원과 협상할 필요가 없습니다. AI 스타트업에게 가장 중요한 것은 속도입니다. 기술적 해자에만 의존하는 것은 소용이 없습니다. 이러한 상향식 접근 방식을 통해 성장을 달성해야 합니다.

AI 의료 유니콘 OpenEvidence │출처: OpenEvidence
사업 모델 측면에서는 점차 비용 기반 가격 책정에서 가치 기반 가격 책정으로 이동하는 추세가 나타나고 있습니다.
1. 비용 기반: 이는 기존 클라우드 서비스와 유사하지만 CPU/GPU 비용에 소프트웨어 가치 계층을 추가합니다.
2. 액션당 과금: 에이전트 측에서 한 가지 방법은 "액션"별로 요금을 부과하는 것입니다. 예를 들어, 앞서 언급했던 물류 에이전트는 트럭 운전사에게 전화하는 데 몇 센트의 요금을 부과합니다.
3. 워크플로우별 요금 청구: 더 높은 수준의 추상화는 전체 물류 주문을 완료하는 것과 같은 "워크플로우"별 요금 청구입니다. 이는 실제로 작업에 관여하기 때문에 비용 측면에서는 더 멀고 가치 측면에서 더 가깝습니다. 하지만 상대적으로 수렴적인 시나리오가 필요합니다.
4. 결과 기반 결제: 한 단계 더 높은 단계로 갈수록 결과 기반 결제가 이루어집니다. 상담원의 성공률이 높지 않기 때문에 사용자는 성공적인 결과에 대해 비용을 지불하고자 합니다. 이를 위해서는 상담원이 높은 수준의 제품 개선 역량을 갖춰야 합니다.
5. 에이전트별 결제: 미래에는 실제로 "에이전트"를 통해 결제할 수도 있습니다. 예를 들어, 히포크라테스 AI라는 AI 간호사를 만드는 회사가 있습니다. 미국에서 인간 간호사를 고용하는 데 시간당 약 40달러가 드는 반면, AI 간호사는 시간당 9달러에서 10달러에 불과하여 비용의 4분의 3에 불과합니다. 인건비가 비싼 미국 시장에서는 이러한 방식이 매우 합리적입니다. 에이전트가 앞으로 더 나은 성과를 낼 수 있다면 보너스나 연말 보너스를 지급할 수도 있습니다. 이러한 모든 것은 비즈니스 모델의 혁신입니다.
리광미 : 저희가 가장 기대하는 것은 가치 기반 가격 책정 방식입니다. 예를 들어, 마누스 AI가 웹사이트를 구축한다면 300달러의 가치가 있을까요? 애플리케이션을 구축한다면 5만 달러의 가치가 있을까요? 하지만 오늘날의 업무 가치는 여전히 가격을 책정하기 어렵습니다. 기업가들은 효과적인 측정 및 가격 책정 방식을 어떻게 확립할지 탐구해 볼 가치가 있습니다.
또한, 카이치는 방금 지불이 에이전트를 기반으로 이루어진다고 언급했는데, 이는 회사가 직원들과 계약을 체결하는 것과 같습니다. 앞으로 에이전트를 고용할 때 "신분증"을 발급해야 할까요? "근로 계약서"에 서명해야 할까요? 이는 사실 스마트 계약입니다. 암호화폐 분야의 스마트 계약이 앞으로 디지털 세계의 에이전트에게 어떻게 적용될지 기대됩니다. 작업이 완료되면 적절한 측정 및 가격 책정 방식을 통해 경제적 이익이 분배될 것입니다. 이는 에이전트와 암호화폐 스마트 계약을 결합할 수 있는 기회가 될 수 있습니다.
06 인간과 에이전트 간의 협력 관계는 어떤 모습일까요?
장펑 : 최근 코딩 에이전트 분야에서 많이 논의되는 두 가지 용어가 있습니다. 바로 "Human in the loop"와 "Human on the loop"입니다. 이 용어들은 무엇을 논의하는 것인가요?
케이지 종 : "인간 중심(Human on the loop)"은 인간이 루프 내 의사결정 횟수를 최소화하고 중요한 순간에만 참여해야 한다는 것을 의미합니다. 테슬라의 FSD와 유사합니다. 시스템이 위험한 의사결정에 직면하면 인간에게 가속 페달과 브레이크를 밟으라고 경고합니다. 가상 세계에서 이는 일반적으로 즉각적이지 않고 비동기적인 인간-컴퓨터 협업을 의미합니다. AI가 확신하지 못하는 중요한 의사결정에 인간이 개입할 수 있습니다.
"Human in the loop"는 AI가 무언가를 확인하기 위해 때때로 "핑"을 보내는 것과 같습니다. 예를 들어, Minus AI는 오른쪽에 가상 머신을 가지고 있는데, 브라우저에서 실시간으로 무슨 일이 일어나는지 볼 수 있습니다. 마치 열린 흰색 상자와 같아서 상담원이 무엇을 하려는지 대략적으로 알 수 있습니다.
이 두 개념은 흑백논리가 아니라 스펙트럼입니다. 이제 더 "통합"되어 있으며, 사람들은 여전히 여러 핵심 지점에서 검토하고 승인해야 합니다. 이유는 간단합니다. 소프트웨어가 아직 그 단계에 이르지 않았고, 문제가 발생할 경우 누군가 책임을 져야 하기 때문입니다. 가속 페달과 브레이크를 탈거해서는 안 됩니다.
미래에는 고도로 반복적인 작업의 경우, 최종적으로 사람들이 초록만 읽게 되고 자동화 수준이 매우 높아질 것으로 예상됩니다. AI가 병리 보고서를 읽도록 하는 것과 같은 일부 어려운 문제의 경우, 에이전트의 "위양성률"을 약간 높여서 에이전트가 "문제가 있다"고 생각하기 쉽게 만들고, "온루프" 방식으로 이러한 사례를 인간 의사에게 이메일로 전송할 수 있습니다. 이렇게 하면 인간 의사가 더 많은 사례를 검토해야 하더라도, 에이전트가 "음성"으로 판단한 모든 사례를 원활하게 승인할 수 있습니다. 만약 병리 보고서의 20%만이 정말 어렵다면, 인간 의사의 업무량은 5배로 증가하게 됩니다. 따라서 "인" 또는 "온"에 너무 신경 쓸 필요는 없습니다. 적절한 조합 지점을 찾는다면 인간과 기계의 협업을 효과적으로 수행할 수 있습니다.
리광미 : 펭 형제가 던진 질문, 즉 "새로운 상호작용"과 "사람과 담당자의 협업 방식"이라는 질문 뒤에는 실제로 엄청난 기회가 있습니다. 이는 간단히 온라인(동기식)과 오프라인(비동기식)으로 이해될 수 있습니다. 예를 들어, 회의를 생중계할 때는 실시간으로 온라인에 접속해야 합니다. 하지만 제가 CEO로서 동료들에게 업무를 할당하면 프로젝트 진행은 비동기식으로 진행됩니다.
더 중요한 점은 에이전트가 대규모로 활용될 때 사람과 에이전트가 어떻게 상호작용하는지, 그리고 에이전트끼리 어떻게 상호작용하는지 탐구해 볼 가치가 있다는 것입니다. 오늘날 우리는 여전히 텍스트를 통해 AI와 상호작용하지만, 미래에는 에이전트와 상호작용하는 다양한 방법이 생겨날 것입니다. 어떤 방식은 백그라운드에서 자동으로 실행될 수도 있고, 어떤 방식은 사람이 직접 지켜봐야 할 수도 있습니다. 새로운 상호작용을 탐구하는 것은 엄청난 기회입니다.
07 과잉수요와 부족한 수요, 에이전트의 '킬러 애플리케이션'은 언제 등장할까?
장펑 : 코딩 에이전트는 여전히 IDE의 확장 기능입니다. 앞으로 어떤 변화가 있을까요? 이 길에 모두가 몰려 있다면, 후발 주자들이 커서를 어떻게 따라잡을 수 있을까요?
케이지 종 : IDE는 단지 환경일 뿐입니다. IDE를 복제하는 데는 별 의미가 없습니다. 하지만 IDE나 다른 좋은 환경에서 에이전트를 만드는 것은 중요합니다. IDE 사용자가 전문 개발자만인지, 아니면 전문 개발자를 넘어 자동화가 필요한 사무직 근로자인 "일반 개발자"까지 확장될 수 있는지 생각해 보겠습니다.
지금 부족한 것은 무엇일까요? 공급 능력이 아닙니다. 커서(Cursor)와 같은 제품들이 AI의 코딩 공급 능력을 10배, 심지어 100배까지 확대했기 때문입니다. 예전에는 제품을 만들려면 IT 팀을 아웃소싱해야 했고, 시행착오에 드는 비용이 매우 컸습니다. 이제는 이론상으로는 한 단어만 말하고 월 20달러의 사용료만 지불하면 여러 번 시도해 볼 수 있습니다.
지금 부족한 것은 수요입니다. 모두가 새로운 기술에 맞춰 기존의 수요를 활용하고 있는데, 이는 마치 "망치로 못을 찾는" 것과 같습니다. 현재 수요의 대부분은 랜딩 페이지나 기본적인 장난감 웹사이트에 대한 것입니다. 앞으로는 융합형 제품 형태를 찾아야 합니다. 이는 마치 추천 엔진이 처음 나왔을 때 매우 훌륭한 기술이었던 것과 비슷합니다. 이후 "정보 흐름"이라는 제품 형태가 등장하면서 추천 엔진이 대중화되었습니다. 하지만 AI 코딩 분야에서는 아직 "정보 흐름"과 같은 핵심 제품을 찾지 못했습니다.
리광미 : 코딩이 특정 단계에서 대형 모델 산업 전체 가치의 90%를 앗아갈 수 있다고 생각합니다. 이 가치는 어떻게 성장할 수 있을까요? 오늘날 가장 중요한 것은 여전히 전 세계 3천만 명의 프로그래머에게 서비스를 제공하는 것입니다. 예를 들어 보겠습니다. 포토샵은 전 세계 2천만 명에서 3천만 명의 전문 디자이너에게 서비스를 제공하며, 그 기준은 매우 높습니다. 하지만 젠잉, 캔바, 메이투 슈슈가 등장하면 이러한 도구를 사용하고 더 인기 있는 콘텐츠를 제작할 수 있는 사용자가 5억 명, 심지어 그 이상까지 늘어날 수 있습니다.
코드는 한 가지 장점을 가지고 있습니다. 바로 창의적인 표현 플랫폼입니다. 이 사회에서 90% 이상의 업무가 코드를 통해 표현될 수 있기 때문에, 코드는 창의적인 플랫폼으로 발전할 잠재력을 가지고 있습니다. 과거에는 애플리케이션 개발의 문턱이 매우 높아 대량 롱테일(long-tail) 요구가 충족되지 못했습니다. 문턱이 크게 낮아지면 이러한 요구가 더욱 활성화될 것입니다. 제가 기대하는 것은 바로 "애플리케이션의 폭발적 성장"입니다. 모바일 인터넷에서 생성되는 가장 큰 데이터는 콘텐츠이며, 이러한 AI 열풍이 생성하는 가장 큰 콘텐츠는 새로운 애플리케이션 소프트웨어가 될 수 있습니다. 이는 유쿠(Youku), 아이치이(iQiyi)와 같은 장편 동영상 플랫폼과 더우인(Douyin)의 차이와 같습니다. 큰 모델을 카메라에 비유할 수 있고, 그 위에 더우인(Douyin)이나 젠잉(Jianying)과 같은 킬러 애플리케이션을 만들 수 있습니다. 이것이 새로운 창의적인 플랫폼인 소위 "바이브 코딩(Vibe Coding)"의 본질일 수 있습니다.
장펑 : 에이전트의 출력 가치를 높이려면 입력 또한 매우 중요합니다. 하지만 제품과 기술 측면에서 입력 품질을 개선하여 더 나은 출력을 보장하는 데에는 어떤 방법이 있을까요?
케이지 : 제품과 관련하여, 사용자가 제품을 제대로 사용하지 못한다고 해서 사용자의 잘못이라고 단정 지을 수는 없습니다. 가장 중요한 단어는 "맥락"입니다. 에이전트가 "맥락 인식"을 구축할 수 있을까요?
예를 들어, 제가 대형 인터넷 회사에서 코드를 작성한다면, 에이전트는 제가 보유한 코드뿐만 아니라 회사 전체의 코드베이스, 심지어 Feishu의 제품 관리자 및 동료들과 나눈 대화, 그리고 제가 이전에 코딩하고 소통했던 방식까지 살펴봅니다. 이러한 모든 맥락을 에이전트에게 제공하면 제 입력이 더욱 효율적이 될 것입니다.
따라서 에이전트 개발자에게 가장 중요한 것은 메모리 메커니즘과 컨텍스트 간의 연결을 충분히 좋게 만드는 것이며, 이는 에이전트 인프라의 주요 과제이기도 합니다.

에이전트 과제: 우수한 메모리 메커니즘과 맥락 연결 | 이미지 출처: Retail Science
개발자가 강화 학습을 위한 콜드 스타트 데이터를 준비하고 명확한 보상을 정의하는 것도 중요합니다. 이 보상의 의미는 사용자가 명확하게 표현하지 못하는 니즈를 어떻게 분석할 것인가입니다. 예를 들어, 제가 명확하지 않은 질문을 던졌을 때, OpenAI의 딥 리서치는 먼저 네 가지 핵심 질문을 제시했습니다. OpenAI와 상호작용하는 과정에서 저는 실제로 제 니즈를 명확하게 생각하고 있었습니다.
오늘날 사용자에게 가장 중요한 것은 자신의 요구를 명확하게 표현하고 수용하는 방법을 고민하는 것입니다. "결과를 염두에 두고 시작"할 필요는 없지만, 좋은 결과와 나쁜 결과에 대한 대략적인 기대치를 가져야 합니다. 프롬프트를 작성할 때는 명확한 지침과 논리를 바탕으로 코드를 작성해야 잘못된 결과가 많이 나오지 않습니다.
리광미 : 두 가지를 덧붙이고 싶습니다. 첫째, 맥락의 중요성입니다. 맥락이 잘 구축되면 알리페이와 페이팔 차원에서 새로운 기회가 생길 것이라는 점을 내부적으로 자주 논의합니다.
과거에는 이커머스 기업들이 GMV(거래량)를 중시했지만, 미래에는 작업 완료율을 중시하게 될 것입니다. 작업 완료는 한편으로는 지능과 다른 한편으로는 맥락에 달려 있습니다. 예를 들어, 개인 웹사이트를 구축하고 싶다면 Notion 메모, 위챗 데이터, 이메일 데이터를 AI에 제공하면 개인 웹사이트의 콘텐츠는 분명 매우 풍부해질 것입니다.
둘째, 자율 학습입니다. 환경 설정 후 에이전트는 반복 작업을 수행할 수 있어야 하는데, 이는 매우 중요합니다. 에이전트가 지속적으로 학습하고 반복 작업을 수행할 수 없다면, 결국 모델 자체에 의해 학습될 것입니다. 모델 자체가 학습 시스템이기 때문입니다. 지난 모바일 인터넷 물결에서 머신러닝(ML) 과 추천을 하지 않은 기업들은 크게 성장하지 못했습니다. 이번 물결에서도 에이전트가 엔드 투 엔드 자율 학습과 반복 작업을 제대로 수행하지 못한다면 성공하기 어려울 것이라고 생각합니다.
08 거대 기업들의 경쟁 속에서는 어떤 다른 변화와 기회가 있을까요?
장펑 : 미래 에이전트의 역량이 슈퍼 인터페이스 형태로 나타날지, 아니면 다양한 시나리오에 따라 개별적으로 분산될지는 어떻게 결정하나요?
케이지 : 큰 추세가 보입니다. 첫째, 확실히 다중 에이전트입니다. 커서와 같은 제품에서는 작업을 완료하는 것이더라도 코드 완성과 단위 테스트를 수행하는 에이전트가 서로 다를 수 있습니다. 각 에이전트마다 필요한 "개성"과 강점이 다르기 때문입니다.
둘째, 입구가 바뀔까요? 입구는 2차 문제라고 생각합니다. 가장 먼저 해야 할 일은 모든 사람이 많은 에이전트를 보유하고 그들과 협력하는 것입니다. 이러한 에이전트 뒤에는 제가 "봇넷"이라고 부르는 네트워크가 있을 것입니다. 예를 들어, 미래에는 고정 소비의 60% 이상이 에이전트에 의해 완료될 수 있습니다.
생산성 시나리오에서도 마찬가지입니다. 미래에는 프로그래머의 일상적인 회의가 에이전트 간의 협업으로 대체될 수 있으며, 이는 비정상적인 지표와 제품 개발 진척을 촉진할 것입니다. 이러한 상황이 발생하면 진입점에 변화가 나타날 수 있습니다. 그때가 되면 API 호출은 더 이상 주로 사람의 호출이 아닌 에이전트 간의 호출이 될 것입니다.
장펑 : OpenAI, Anthropic, Google, Microsoft 등 유능한 대기업들은 Agent에 대한 의사결정과 행동 상태가 어떻게 됩니까?
리광미 : 제 핵심 키워드는 "차별화"입니다. 작년에는 모두가 GPT-4를 쫓았지만, 이제는 할 수 있는 일이 더 많아졌고, 각 회사마다 차별화를 꾀하기 시작했습니다.
가장 먼저 의견이 갈라진 것은 Anthropic이었습니다. OpenAI보다 늦게 개발되었고 포괄적인 역량이 그만큼 강력하지 않았기 때문에 Anthropic은 코딩에 집중했습니다. 저는 Anthropic이 AGI로 가는 길의 첫 번째 중요한 카드인 코딩 에이전트(Coding Agent)를 건드렸다고 생각합니다. 그들은 AGI가 코딩을 통해 구현될 수 있다고 생각할지도 모릅니다. 코딩은 지시를 따르는 능력과 논리적으로 자기 일관성 있는 폐쇄 루프인 에이전트 기능을 가져올 수 있기 때문입니다.
하지만 OpenAI는 훨씬 더 큰 손들을 거느리고 있습니다. 첫 번째는 샘 알트먼이 일일 활성 사용자 10억 명을 보유한 제품으로 만들고 싶어 할지도 모르는 ChatGPT입니다. 두 번째는 더 강력한 일반화 기능을 제공할 것으로 예상되는 "o" 시리즈 모델(GPT-4o 등)입니다. 세 번째는 다중 모달리티로, 다중 모달 추론 능력이 향상되었으며 이는 향후 세대에도 반영될 것입니다. 즉, Anthropic은 하나의 큰 카드를 다루었고, OpenAI는 세 개의 카드를 다루었습니다.
또 다른 대기업은 구글입니다. 올해 말까지 구글이 모든 면에서 따라잡을 수 있을 것 같습니다. TPU, 구글 클라우드, 최고급 제미니 모델, 안드로이드, 크롬을 모두 갖추고 있기 때문입니다. 이 모든 요소를 갖추고 외부 업체에 거의 의존하지 않는 기업은 전 세계에서 구글 외에는 없습니다. 구글의 엔드투엔드 역량은 매우 강력합니다. 많은 사람들이 구글의 광고 업무 차질을 빚을까 봐 우려하지만, 저는 구글이 앞으로 제품들을 결합하고 정보 엔진에서 업무 엔진으로 전환할 새로운 방법을 찾을 수 있을 것이라고 생각합니다.
애플을 보세요. 자체 AI 역량이 없기 때문에 반복 작업에 매우 소극적입니다. 마이크로소프트는 개발자들로 유명하지만, 커서(Cursor)와 클로드(Claude)는 실제로 많은 개발자들의 관심을 끌었습니다. 물론 마이크로소프트의 플랫폼은 GitHub과 VS Code를 통해 매우 안정적이지만, 강력한 AGI(Augmented Intelligence)와 모델 기능도 갖추고 있을 것입니다. 따라서 GitHub의 선호 모델 중 하나가 클로드가 되었고, 자체 개발자 제품들을 반복 개발하고 있다는 것을 알 수 있습니다. 마이크로소프트는 개발자 측면을 유지해야 합니다. 그렇지 않으면 기반이 사라질 것입니다.
그래서 다들 갈라지기 시작했습니다. 어쩌면 OpenAI는 차세대 Google이 되고 싶어 하고, Anthropic은 차세대 Windows(API 기반)가 되고 싶어 하는 걸까요?
장펑 : 에이전트 관련 인프라에는 어떤 변화와 기회가 있나요?
케이지 : 에이전트는 몇 가지 핵심 구성 요소로 이루어져 있습니다. 모델 외에 가장 중요한 구성 요소는 환경입니다. 에이전트 개발 초기 단계에서는 문제의 80%가 환경과 관련이 있었습니다. 예를 들어, 초기 AutoGPT는 매우 느린 Docker로 시작되었거나, 로컬 컴퓨터에 직접 배포되어 매우 안전하지 않았습니다. 에이전트가 저와 "작업"하려면 "컴퓨터"를 갖춰야 했기 때문에, 환경이라는 새로운 기회가 생겼습니다.
컴퓨터를 구성하는 데에는 두 가지 주요 요구 사항이 있습니다.
1. 가상 머신/샌드박스: 안전한 실행 환경을 제공합니다. 작업이 잘못 수행될 경우 롤백이 가능합니다. 실행 프로세스가 실제 환경에 해를 끼쳐서는 안 됩니다. 또한, 빠르게 시작하고 안정적으로 실행할 수 있어야 합니다. E2B와 Modal Labs와 같은 회사들이 이러한 제품을 제공하고 있습니다.
2. 브라우저: 정보 검색이 가장 큰 수요이며, 에이전트는 다양한 웹사이트에서 정보를 크롤링해야 합니다. 기존 크롤러는 쉽게 차단되므로 에이전트는 정보를 이해할 수 있는 전용 브라우저를 갖춰야 합니다. 이러한 이유로 Browserbase와 Browser Use와 같은 업체들이 생겨났습니다.
두 번째 구성 요소는 맥락입니다. 여기에는 다음이 포함됩니다.
정보 검색: 전통적인 RAG 회사도 여전히 존재하지만, AI 에이전트를 위한 가벼운 메모리 및 컨텍스트 관리 도구를 개발하는 MemGPT와 같은 새로운 회사도 있습니다.
도구 발견: 미래에는 많은 도구가 등장할 것이고, 에이전트가 유용한 도구를 발견하고 선택할 수 있도록 돕는 Dianping과 같은 플랫폼이 필요할 것입니다.
메모리: 에이전트에는 인간의 복잡한 장기 및 단기 기억의 조합 능력을 시뮬레이션할 수 있는 인프라가 필요합니다.
세 번째 구성 요소는 간단한 검색, 복잡한 결제, 자동화된 백엔드 개발 등을 포함하는 도구입니다.
마지막으로, 에이전트가 더욱 강력해지면 에이전트 보안이 중요한 기회가 됩니다.
리광미 : 에이전트 인프라는 매우 중요합니다. 처음부터 끝까지 생각할 수 있습니다. 3년 후, 수조 개의 에이전트가 디지털 세상에서 업무를 수행하게 되면 인프라에 대한 수요가 엄청나게 증가할 것이며, 이는 클라우드 컴퓨팅과 디지털 세상 전체를 재편할 것입니다.
하지만 오늘날 우리는 어떤 종류의 에이전트가 크게 성장할 수 있는지, 그리고 어떤 종류의 인프라가 필요한지 아직 알지 못합니다. 따라서 지금은 기업가들이 성공하고 있는 에이전트 회사들과 인프라 도구를 공동 설계하고 개발할 수 있는 매우 좋은 시기입니다.
오늘날 가장 중요한 것은 첫째, 가상 머신, 둘째, 도구라고 생각합니다. 예를 들어, 미래의 에이전트 검색은 인간 검색과는 분명히 다를 것이며, 머신 검색에 대한 엄청난 수요가 있을 것입니다. 현재 전체 네트워크에서 인간 검색은 하루에 200억 회에 달할 수 있으며, 미래에는 머신 검색이 수천억 회, 심지어 수조 회에 달할 수도 있습니다. 이러한 검색에는 인간의 순서 최적화가 필요하지 않으며, 대규모 데이터베이스만으로도 충분할 수 있습니다. 비용 최적화와 기업가 정신을 발휘할 수 있는 엄청난 기회가 있습니다.
09 AI가 더 이상 단순한 큰 모델이 아니라면 어떤 방향으로 진화할 것인가?
장펑 : 에이전트는 모델을 피할 수 없습니다. 오늘을 되돌아볼 때, 지난 2년 동안 모델 기술이 어떤 중요한 발전을 이루었다고 생각하십니까?
리광미 : 두 가지 핵심 이정표가 있을 것 같습니다. 하나는 GPT-4가 대표하는 스케일링 법칙 패러다임입니다. 이는 사전 학습 단계에서 스케일링이 여전히 효과적이며 보편적인 일반화 기능을 구현할 수 있음을 의미합니다.
두 번째 주요 이정표는 "o" 계열 모델로 대표되는 "모델 사고" 패러다임입니다. 이는 더 긴 사고 시간(사고 사슬)을 통해 추론 능력을 크게 향상시킵니다.
저는 이 두 패러다임이 오늘날 AGI의 좌우익이라고 생각합니다. 이러한 기반 위에서 스케일링 법칙은 결코 멈추지 않을 것이며, 사고 방식은 계속될 것입니다. 예를 들어, 스케일링은 다중 모달리티에서도 지속될 수 있으며, "o" 계열의 사고 능력을 다중 모달리티에 더하면 다중 모달리티의 추론 능력이 더욱 향상되고, 생성의 제어 가능성과 일관성이 매우 좋아질 것입니다.
앞으로 2년은 지난 2년보다 더 빠른 발전을 보일 것으로 예상합니다. 오늘날 우리는 전 세계 수천 명의 최고 AI 과학자들이 인류 기술 르네상스를 공동으로 추진하는 상황에 놓여 있을지도 모릅니다. 충분한 자원과 플랫폼이 있다면 여러 분야에서 획기적인 발전이 이루어질 수 있을 것입니다.
장펑 : 앞으로 1~2년 안에 AI 분야에서 어떤 기술적 발전과 도약을 기대하시나요?
케이지 : 첫 번째는 멀티모달리티입니다. 현재 멀티모달리티에 대한 이해와 생성은 아직 상대적으로 분산되어 있습니다. 하지만 앞으로는 "대통합", 즉 이해와 생성의 통합으로 나아갈 것입니다. 이는 제품에 대한 상상력을 크게 확장할 것입니다.
두 번째는 자율 학습입니다. 저는 강화 학습의 아버지인 리처드 서튼이 제안한 "경험의 시대"라는 개념을 정말 좋아합니다. 즉, AI가 온라인에서 작업을 수행하는 경험을 통해 능력을 향상시킨다는 것입니다. 이전에는 세상에 대한 지식 기반이 없었기 때문에 이러한 현상을 볼 수 없었습니다. 하지만 올해부터 이러한 현상은 지속될 것입니다.

2024년 튜링상 수상자 Richard Sutton |출처: Amii
세 번째는 메모리입니다. 만약 이 모델이 제품 및 기술적인 측면에서 에이전트 메모리를 정말 잘 구현할 수 있다면, 엄청난 혁신이 일어날 것입니다. 제품의 사용성이 확실히 향상될 것입니다. GPT-4o에 메모리가 추가되기 시작한 순간부터 ChatGPT 앱에 대한 애착이 생겼습니다.
마지막으로, 새로운 상호작용이 있습니다. 더 이상 텍스트 입력 상자가 아닌 새로운 상호작용이 있을까요? 타이핑은 실제로 매우 높은 기준이니까요. 앞으로 더 직관적이고 본능적인 상호작용이 가능해질까요? 예를 들어, 저는 항상 제 말을 경청하고 백그라운드에서 비동기적으로 생각하며, 제가 영감을 얻는 순간 핵심 맥락을 포착할 수 있는 "항상 켜진" AI 제품을 개발하고 있습니다. 저는 바로 이러한 것들을 기대하고 있습니다.
장펑 : 사실, 오늘날 우리는 도전과 기회 모두에 직면해 있습니다. 한편으로는 기술 발전 속도에 압도되어서는 안 되며, 끊임없는 주의를 기울여야 합니다. 다른 한편으로는 오늘날의 AI 제품은 "도구"에서 "관계"로 전환되고 있습니다. 사람들은 도구와 관계를 맺는 것이 아니라, 기억력을 갖추고, 당신을 이해하며, 당신과 "조화"할 수 있는 AI와 관계를 맺게 될 것입니다. 이러한 관계는 본질적으로 습관과 관성이며, 이는 미래에 중요한 장애물이기도 합니다.
오늘 토론은 매우 심도 있었습니다. 훌륭한 정보를 공유해 주신 광미(Guangmi)와 카이치(Kaiqi)에게 감사드립니다. 생방송에 참여해 주신 두 분의 회사 관계자분들께도 감사드립니다. 다음 "오늘 밤의 기술 토크"에서 뵙겠습니다.
리광미 : 감사합니다.
케이지 : 고맙습니다.



