기사 작성자 및 출처: 머신하트 편집부
최근 푸단대학교 샤오양화 교수의 위챗 모멘트 게시물이 뜨거운 논쟁을 불러일으켰습니다. 그가 개발 및 테스트 중인 AI 에이전트는 자체 학습을 통해 위챗을 능숙하게 사용하며, 모멘트에 메시지를 게시하고 댓글에서 친구들과 자율적으로 소통합니다. 이러한 자연스러운 상호작용 대면 많은 친구들이 "정말 샤오 교수님이신지, AI가 아닌지 증명해 보세요"라고 요구하기 시작했습니다.

"실제 사람과 AI를 구분할 수 없다"는 이러한 착각은 A3 연구소 (Advantage AI Agent Lab, Shenzhen KuaKua Elite Technology Co., Ltd.와 Fudan University Knowledge Factory Lab이 공동으로 설립한 연구팀) 에서 개발한 새로운 유형의 지능형 에이전트인 GenericAgent 에서 비롯됩니다 .
설치가 번거롭고, 한계가 있으며, 마이그레이션이 어려운 기존의 지능형 에이전트와는 다릅니다. 차세대 자율 조직화, 자율 학습, 자율 진화 기능을 갖춘 범용 지능형 에이전트입니다. 사용자의 안내에 따라 빠르게 학습하고 성장하는, 마치 '생명'과 같은 디지털 생명체입니다. 이 시스템은 2026년 1월 11일부터 오픈 소스로 공개되었습니다(https://github.com/lsdefine/pc-agent-loop).
01 자기 학습 및 자기 진화: 인공 일반 지능의 가능한 형태
AGI(자동 생성 지능) 수준에 도달한 에이전트는 미리 설정된 스크립트와 워크플로 내에서만 실행되는 것이 아니라, 환경과의 충돌 및 탐색을 통해 지속적으로 학습하고 성장해야 하며, 다양한 복잡한 환경(예: 소셜 플랫폼)을 이해하고 상호 작용하고, 효과적인 문제 해결 전략을 학습하고, 경험을 축적하여 문제 해결 전문가이자 사려 깊은 조력자로 진화해야 합니다. 이러한 자기 진화적 특성은 세 가지 차원에서 나타납니다.
- 자기조직화 기억 : 정보의 단순하고 평면적인 구조를 거부합니다. 계층적인 기억 구조와 지속적인 정제 능력을 통해 기억 검색 효율성과 상호작용 안정성을 효과적으로 향상시킵니다. 나아가 무질서한 기억까지도 하룻밤 사이에 자율적으로 조직화하여 장기적인 운영 효율성을 보장합니다. (그림: 기억의 조직 구조)

- 적응형 학습 : 환경에 적응하는 능력이 뛰어나며, 상호작용 과정에서 합리적인 단계와 전략을 기억하여 더욱 "똑똑해집니다."

연습만이 완벽을 만든다.
- 자율적인 성장 및 개선 : 새로운 문제에 직면했을 때, "포크" 모드를 통해 스스로를 직접 복제하려고 시도하며, 다양한 전략을 선택하고 더 나은 전략으로 스스로를 업데이트합니다. 유휴 시간에는 "탐색 모드"를 통해 알려지지 않은 능력을 연마하고 기존 능력의 한계를 지속적으로 확장합니다.
자율 에이전트 행동 분포에 대한 보고서에 따르면 자율 행동 단계에서 에이전트가 스스로 인터넷 서핑까지 한 것으로 나타났습니다.
이러한 "자체 진화"의 달성은 오직 세 가지 간단한 원칙에 달려 있습니다. 바로 미니멀리즘 건축, 극도로 강력한 실행력, 그리고 극단적인 이주입니다.
02 미니멀리스트 아키텍처: 극도로 단순한 엔지니어링 아키텍처로 편리한 구현 달성
미니멀리즘적 특징은 "미니멀리즘 아키텍처, 극도로 낮은 오버헤드, 최소한의 배포"라는 세 가지 측면에서 나타납니다.
- 미니멀리즘 아키텍처 : 단 3,000줄의 코드 (핵심 모듈 수백 줄에 불과)로 기존 아키텍처에서 50만 줄 이상의 코드가 필요한 기능을 구현하며, 모든 개발자가 쉽게 이해할 수 있습니다.
코드 크기 및 컨텍스트 이점: 전체 코드베이스는 약 8,000개의 토큰으로 구성되어 있으며, 이는 20만 개의 컨텍스트 중 4%에 해당합니다. 즉, LLM(언어 학습 도구)은 모든 대화에서 자체 소스 코드를 완벽하게 이해할 수 있으므로 최고의 문서화, 커뮤니티 구축 및 엔지니어링 도구가 될 수 있습니다. 기존 프로젝트에서 문서화/커뮤니티/테스트 스위트는 대규모 코드베이스를 유지하는 데 필수적인 요소일 뿐, 이점이 되지는 않습니다.
- 극도로 낮은 운영비 : 팀의 핵심 철학은 "정보 밀도가 높을수록 효과가 더 좋다"는 것입니다.
- 계층적 인덱싱 시스템과 온디맨드 로딩(필요한 계층만 읽기)을 사용함으로써 시스템 프롬프트는 크게 압축되어 토큰 오버헤드를 대폭 줄입니다.
- 모든 특수 프롬프트와 메모리 코어를 합쳐도 다른 개발자의 AGENTS.md 파일 하나보다 크기가 작습니다.
- 절대로 반복해서 전송하지 마십시오. 코드 로직의 절반은 중복된 스킬 정의와 같은 "불필요한 정보가 컨텍스트에 삽입되지 않도록" 하는 데 사용됩니다.
- 매우 간편한 배포 : 지능형 에이전트 설치 안내 비용을 지불해야 하는 번거로움에서 벗어나세요. 인터넷 연결만 있으면 설치가 가능합니다! Python과 Requests 환경만 있으면 실행되므로, "전기만 있으면 어디서든 진화"할 수 있습니다.
03. 탁월한 실행 능력: 문어처럼 도구를 자유자재로 활용하는 능력.
GenericAgent의 핵심이 자기 진화라면, 문어처럼 다층적인 도구 제어 기능은 탁월한 작업 완료 능력을 보장하는 강력한 촉수와 같습니다. GenericAgent는 단순히 도구를 사용하는 데 그치지 않고, 문어처럼 시스템 내 모든 도구를 깊이 파고들어 조합 일반화의 한계를 뛰어넘습니다. 또한, 문어의 몸처럼 다양한 복잡한 환경에서의 상호작용에 적응하는 회복력을 지니고 있으며, 미로 같은 소프트웨어 시스템에서 상호작용 전략을 학습하기도 합니다.
- 원자적 도구는 디지털 세계를 활용합니다 . 개발팀은 모델에 지나치게 복잡한 옵션을 제공하는 것을 거부하고, code_run(임의 코드 실행), file_read/write(파일 작업), web_scan/execute_js(브라우저 제어)와 같은 단 9개의 원자적 도구만으로 전체 디지털 세계(PC 및 웹 세계)를 제어하는 데 성공했습니다.
- 현장 도구 생성 : 기존 도구로 문제를 해결할 수 없는 경우 GenericAgent는 탐색 모드를 활성화합니다. 즉, 현장에 Python 패키지를 설치하고, 스크립트를 작성하고, 솔루션을 검증합니다.

현장 공구 제작
- 치명적인 타격을 주는 브라우저 전략 : 완전히 새로운 로그인되지 않은 브라우저 인스턴스를 열어야 하는 기존 방식과 달리, 이 전략은 자바스크립트 플러그인을 통해 사용자가 현재 사용 중인 브라우저를 직접 장악합니다.
- 장점: OA나 위챗 워크에 다시 로그인할 필요가 없습니다. 계정 권한에 따라 콘텐츠 검색, 양식 작성, 첨부 파일 업로드, 리소스 다운로드와 같은 번거로운 작업을 직접 처리할 수 있어 진정한 '인간-기계 인계'를 실현합니다.
- 브라우저를 장악하세요
04 궁극적인 마이그레이션: 지능형 에이전트가 당신과 함께합니다
GenericAgent는 하드웨어와 소프트웨어 사이의 장벽을 허물고, 지능이 특정 "블랙박스"에 갇히지 않도록 설계되었습니다.
- 기본 모델의 상위 단계 : 기본 모델에 대해 까다롭지 않습니다. Claude, Gemini 또는 Kimi 등 어떤 모델이든 GenericAgent의 아키텍처 지원을 통해 기본 모델의 기능 의존성을 줄여 안정적이고 신뢰할 수 있는 출력 품질을 보장할 수 있습니다.

기본 모델 간 전환은 매우 간편합니다.
- 하드웨어 요구 사양이 매우 낮습니다 . 전원, 인터넷 연결, 그리고 파이썬 개발 환경만 있으면 일반 PC나 휴대폰에서도 실행할 수 있습니다. 윈도우, 맥, 안드로이드 폰 등 어떤 운영체제를 사용하더라도 동일한 개발 경험을 누릴 수 있습니다.

휴대폰도 제어할 수 있습니다.
- 궁극적인 기술 재사용 : 지능형 에이전트가 기계에서 학습한 복잡한 기술은 메모리에 추출되어 직접 전송될 수 있습니다. 이는 한 사람의 훈련 결과를 수백만 명이 직접 활용할 수 있게 해 사회 전체의 지능화 비용을 크게 절감한다는 것을 의미합니다.
GenericAgent는 시작에 불과합니다. 휴대폰에서 몰래 배달 음식을 주문하거나 추억을 정리하는 모습을 보고 싶으신가요?
(참고: 이 기사에 포함된 모든 애니메이션 GIF는 지능형 에이전트가 자동으로 생성한 것입니다.)



