GPT에서 Agent까지, 기술과 업무"양방향으로 나아갈 수 있는" 방법

06-20

이 기사는 기계로 번역되었습니다

원문 표시

오늘날의 기술 변화 속에서 혁신가와 기업들은 기술적 신념과 상법의 치열한 충돌로 인해 심각한 어려움에 직면하고 있으며, 기술적 절벽, 엔지니어링 격차, 그리고 상업적 안개라는 세 가지 주요 딜레마에 빠져 있습니다. 그렇다면 "고부가가치-엔지니어링 가능성-강력한 폐쇄 루프" 시나리오를 파악하는 황금률은 무엇일까요? LLMOps와 같은 플랫폼 역량을 기반으로 AI와 업무 의 "양방향 러시"를 어떻게 달성할 수 있을까요?

최근 InfoQ의 "Geek Appointment" X AICon 라이브 방송 칼럼에서는 Mars Radio의 공동 창립자 겸 CTO인 쉬 웬젠, 알리바바의 수석 기술 전문가인 리 천중, AutoGame의 창립자 장 하오양을 특별히 초대하여 AICon 글로벌 인공지능 개발 및 응용 컨퍼런스 2025 베이징역이 곧 개최됨에 따라 대규모 모델 제품의 구현을 위한 실제 경로에 대해 논의했습니다.

주요 관점 다음과 같습니다.

미래에는 대규모 모델이 물이나 전기와 같은 공공 자원이 될 것이고, 우리는 개인 도메인 모델, 제품, 데이터 플라이휠을 구축하는 데 더 집중해야 할 것입니다.
일반적인 대규모 모델을 훈련하면 사용 가능한 모든 데이터가 흡수되므로, 실제로 "데이터 아일랜드"에 있는 정보만이 고유한 이점이 될 수 있습니다.
미래의 제품은 더 이상 코드 자체가 아닌 모델 기반 역량이 될 것입니다.
진정한 혁신은 애플리케이션 계층에서 일어날 것입니다. 일반적인 기반을 바탕으로 다양한 분야의 전문 지식을 결합하여 풍부한 수직 시나리오 애플리케이션을 구축할 것입니다.
전통적인 인재들은 특정 분야에 대한 심도 있는 전문성을 강조하며, 대기업의 전문가 또는 실행자 역할을 수행합니다. 미래 인재의 핵심 가치는 개발자가 디자인, 제품, 그리고 예술적 논리를 동시에 이해하는 것처럼 폭넓은 시야에 있습니다.

다음 내용은 생방송 속기 내용을 바탕으로 InfoQ에서 편집한 것입니다.

우리는 언제부터 "AI를 시작"했을까?

쉬 웬젠: GPT가 처음 나왔을 때 어떤 생각이 드셨나요? "당장 뭔가 해야지"라고 생각했던 순간이 있었나요?

리천중: 2012년 지능형 고객 서비스 로봇을 개발할 당시, 전통적인 방식으로 결과를 개선하려고 노력했지만 병목 현상을 극복할 수 없었습니다. 문장 매칭이든, 표현의 폭을 넓히든 결과는 경직되고 기계적이었습니다. 언어 능력을 활용해 사람의 답변을 흉내 내더라도, 내용은 공허하고 허황된 말장난에 불과했습니다. 그 후 2015년과 2016년에 업계가 AI 열풍을 경험했을 때, 저는 많은 사례를 관찰했지만, 당시의 뜨거운 AI 개념은 제가 기대했던 효과와는 여전히 거리가 멀다는 것을 느꼈습니다. GPT가 등장하기 전까지는요.

GPT를 처음 접했을 때, 대규모 언어 모델이 기존 AI 기술과는 완전히 다르다는 것을 알게 되었습니다. 과거에는 불가능했던 많은 것을 가능하게 합니다. 더 이상 특정 수직 필드 작업에만 국한되지 않고, 일정한 추론 능력을 보여주며 유창하고 자연스러운 언어로 표현할 수 있다는 점이 놀랍습니다. 그래서 GPT 출시 직후부터 다양한 시나리오에 적용해 보기 시작했고, 콘텐츠 요약에서 추론 및 판단과 같은 작업으로 점차 확장했습니다. 제 생각에 GPT의 등장은 특이점 순간의 도래처럼 새로운 세계로 향하는 문을 열고 완전히 다른 시대의 도래를 알리는 신호라고 생각합니다.

장하오양: GPT 초기 사용자로서, 출시 5일째 되는 날 드디어 계정을 얻었던 기억이 납니다. GPT가 가져다준 설렘에 밤새 잠을 이루지 못했고, 매일 그 기능을 체험해 보았습니다. 당시 OpenAI는 아직 거대 기업이 아니었고, Bing이 GPT에 연결된다는 소식과 같은 마이크로소프트와의 협력 소문도 큰 반향을 일으켰습니다. 그로부터 한 달도 채 지나지 않아 ChatGPT는 역사상 가장 빠른 속도로 사용자 1억 명을 돌파하며 생성 AI 혁명의 도래를 알렸습니다.

GPT 3.5 출시 이후, 그 지능 수준은 획기적인 충격을 가져왔습니다. 그 이후로 저는 게임 분야 애플리케이션에 집중하기 때문에 주로 두 가지 주요 방향에 집중하고 있습니다. 하나는 NPC 애플리케이션입니다. 대규모 언어 모델은 정서 가치를 제공하고 문제를 해결할 수 있으며, 게임 NPC로 구현될 수 있습니다. 두 번째는 AI 프로그래밍 분야입니다. GPT 출시 직후, Cursor는 대규모 모델 기능을 VS Code 편집기에 통합한 최초의 제품 중 하나가 되었습니다. Cursor는 오늘날 널리 알려져 있지만, 2023년 초에는 초기 AI 지원 프로그래밍을 실현한 매우 참신한 도구였습니다. 이후 에이전트 프로그래밍 개념을 점진적으로 발전시켜 2025년 Vibe Coding을 출시했습니다.

쉬 웬젠: 제 경험은 두 선생님의 경험과는 조금 다릅니다. "AI에 헌신한다"는 명확한 전환점은 없지만, 양적 변화에서 질적 변화로 이어지는 과정입니다. GPT(인공지능)는 처음 등장했을 때 저에게도 큰 충격을 주었습니다. 그래서 2023년 초, 베이징사범대학교 박사 과정 친구들과 함께 학습적인 사고방식으로 AI 맞춤형 교육 상품을 개발했습니다. 비록 개인의 역량 부족으로 프로젝트는 결국 실패했지만, 제 마음속에는 'AI는 정말 많은 것을 바꿀 수 있으며 우리 세대에게 소중한 기회가 될 수 있다'는 생각이 싹텄습니다. 프로젝트가 실패한 후, 저는 중국 최첨단 AI 기업들의 기술 이해와 활용 사례를 배우고 싶어 바이촨 인텔리전스에 입사했습니다. 바이촨에서 에이전트와 같은 기술을 배우고, 퇴사 후에도 AI 기업가 정신에 꾸준히 투자했습니다. 이러한 축적이 어느 순간 질적 변화를 가져왔습니다. 제가 AI 분야에 깊이 관여해 왔다는 사실을 문득 깨달았습니다.

쉬 웬젠: 지난 2년 동안 가장 큰 인지적 변화는 무엇이었나요? 기억에 남는 "이야기"나 경험을 공유해 주실 수 있나요?

리천중: 저는 기술적 이상주의를 가진 사람입니다. 아이언맨의 자비스나 다른 인공지능 캐릭터처럼 공상과학 영화를 보는 것도 좋아합니다. 그래서 AI의 급속한 발전에 감탄합니다. 하지만 인지 기능에 큰 변화가 있었을 때, 그 과정이 실제로 명확하게 드러나지는 않았습니다.

유일하게 눈에 띄는 변화는 한때 상상 속에만 존재했던 많은 아이디어들이 점점 더 실현 가능해지고 있다는 점입니다. 저는 초기 버전의 ChatGPT를 사용했는데, 어떤 시나리오에서는 그 효과가 놀라웠습니다. 모델이 빠르게 반복되고 업그레이드됨에 따라 그 기능이 끊임없이 향상되어 미래의 실현 경로가 점점 더 명확해지고 있습니다. 과거에는 인터넷 산업의 발전 속도가 날로 변화했지만, 지난 2~3년 동안 AI의 발전 속도는 완전히 다른 차원입니다. AI가 등장한 지 2~3년 동안, 전체 분야의 발전 속도는 상상을 초월할 정도로 빨랐습니다.

그 당시 제 기분을 잘 보여주는 문장이 있습니다. "갑자기 인간처럼 많은 것을 다룰 수 있는 "자유 노동력"을 발견했다는 생각이 들었습니다." 그때 떠오른 또 다른 아이디어는 AI가 주도하는 가상 세계를 구축하는 것이 가능해졌다는 것이었습니다. 저에게 SF 영화 속 장면들과 제 개인적인 생각들은 더 이상 환상이 아니라, 실현 가능한 목표가 되었고, 명확한 실현 경로를 가지고 있습니다.

새로운 것의 등장은 종종 두 가지 태도로 이어집니다. 하나는 흥분으로 받아들이고, 기회를 포착하고 적극적으로 시도하는 것이고, 다른 하나는 신중하게 관망하는 것입니다. 즉, 새로운 것을 시도할 때 종종 이 두 가지 태도 사이에 끼어들게 됩니다. 예를 들어, AI가 처음 등장했을 때 저는 적극적으로 참여하고 싶었지만, 많은 사람들은 시기가 맞지 않거나 기술이 아직 성숙하지 않았다고 생각하며 보수적이었습니다.

이 시기에 저는 끈기의 필요성을 깨달았습니다. 혁신적인 아이디어를 내놓아도 널리 인정받는 경우는 드뭅니다. 오히려 사람들은 가만히 기다리거나 심지어 반대할 가능성이 더 큽니다. 이런 경우, 추진하기가 어려워지고 다른 사람들을 설득하기도 쉽지 않습니다. 그래서 스스로 주장하지만 지지를 받지 못하는 상황에 자주 직면하게 되고, 이 과정은 필연적으로 어려움으로 가득 차게 됩니다.

장하오양: 저는 2023년에도 텐센트에서 근무하고 있었고, 연말에 회사를 떠나 제 사업을 시작했습니다. 초창기 대기업 실무자로서 저는 외부 인터페이스에만 의존하기보다는 가능한 한 빨리 대규모 모델을 개발해야 한다는 것을 알고 있었습니다. 이는 2023년 상반기 업계의 거의 공통된 의견이었습니다. 대기업들은 대규모 모델 개발에 전념했고, 텐센트 또한 혼합 모델을 출시했습니다.

전환점은 2023년 중반, LLaMA 모델이 실수로 유출되어 오픈소스화되면서 찾아왔습니다. 중국 대형 모델 커뮤니티는 빠르게 활성화되었고, 이후 "AI의 육룡(六龍)"으로 불리게 된 스타트업들이 등장했습니다. 그러나 2024년 상반기에는 많은 사람들이 자체 대형 모델 개발에 대한 생각을 포기하는 심각한 인지적 변화가 발생했습니다. 국내외에서 다양한 기반 모델의 역량이 대형 모델 학습이 누구나 할 수 있는 일이 아니라는 것을 반복적으로 입증하면서, 처음부터 학습하거나 미세 조정하는 것의 중요성이 약화되고 있기 때문입니다. 특히 RAG 기술이 등장한 이후, 뛰어난 검색 및 순서 메커니즘이 이상적인 결과를 달성하는 경우가 많아졌으며, 이는 2024년의 일반적인 공감대를 형성했습니다.

2024년은 "AI 응용의 해"라고 불리지만, 진정한 폭발은 2025년에 일어날 것입니다. AI 프로그래밍 도구를 예로 들어 보겠습니다. 2025년 2월 말 Claude 3.7이 출시된 후, Cursor로 대표되는 제품들은 보조 프로그래밍에서 실제 AI 프로그래밍으로 도약했습니다. 모델 지능의 향상은 제품과 상류 및 하류 기능을 완전히 변화시켰습니다. 이는 결국 새로운 인식으로 이어졌습니다. 즉, 앞으로는 자체 개발된 소형 모델이 필수적일 것이라는 것입니다.

AI 에이전트 스타트업은 "제품-데이터-모델"이라는 철의 삼각형을 구축해야 하며, 이 세 가지를 긴밀하게 결합해야만 장벽을 허물 수 있습니다. 예를 들어, 제품과 모델만 있다면 기업가들은 프롬프트 워드 엔지니어링과 같은 얕은 작업에 의존해야 합니다. 그러나 OpenAI의 플러그인 기능 출시로 대량 셸 애플리케이션이 제거되면서 이러한 유형의 모델에는 장벽이 없음이 입증되었습니다. 특히 Claude 4와 같은 모델이 시니어 엔지니어나 아키텍트 수준에 도달하면 상위 애플리케이션 공간이 더욱 압축됩니다. 또 다른 유형은 작년에 유행했던 "프라이빗 도메인 빅 모델" 개념으로, 의료 분야의 더티 데이터를 통합하여 독점 모델을 학습시키는 것입니다. 사용자에게 직접 제공되는 제품 진입점이 부족하면 이러한 작업은 바다에 가라앉거나 다른 사람의 웨딩드레스가 되기 쉽습니다. 폐쇄형 데이터 루프를 형성할 수 없기 때문입니다.

커서를 예로 들어 보겠습니다. 커서는 클로드, 제미니, 오픈AI와 같은 모델에 연결되지만, 사용자가 개인정보 보호 모드를 켜지 않은 경우 생성된 코드는 자체 개발된 프로그래밍 모델을 학습하는 데 사용될 수 있습니다. 커서는 MCP 메커니즘과 유사한 툴 체인을 통해 파일 편집과 같은 작업을 처리하면서 사용자 행동 데이터를 축적합니다. 커서가 사용자 습관의 진입점이 되면, 커서 모델은 기반 모델보다 프로그래밍에 더 능숙할 수 있습니다. 이러한 제품은 향후 자가 진화 게임이나 소셜 도구 등 다양한 분야에 등장할 수 있습니다. 물론, 거대 기업의 독점도 경계해야 합니다. 자체 개발된 프라이빗 도메인 소규모 모델의 핵심 가치는 도메인 지식과 제품을 결합하여 데이터 플라이휠을 형성한 후, 제품-데이터-모델이 강력한 생태적 관계를 형성하여 대기업조차 진입하기 어렵게 만든다는 것입니다.

또 다른 주목할 만한 사실은 대형 모델의 비용이 기하급수적으로 감소하고 있다는 것입니다. 2023년 3월, 스탠퍼드 타운 실험은 하룻밤 운영에 수천 달러의 비용이 들었습니다. 그러나 불과 반년 후, 모델 성능이 향상되면서 가격은 폭락했습니다. 2024년 5월에는 DeepSeek과 같은 모델이 GPT-4와 비슷한 수준이 되었지만, 비용은 GPT-4의 10%에 불과했습니다. 올해는 비용이 거의 무료입니다. 게임 내 AI NPC 상호작용을 예로 들면, 수천 명의 플레이어가 대형 모델 토큰에 매달 수십 달러만 지출합니다. 앞으로 대형 모델은 물과 전기처럼 공공 자원이 될 것이며, 우리는 프라이빗 도메인 모델, 제품, 데이터 플라이휠 구축에 더욱 집중해야 합니다.

쉬 웬젠: 커서가 이런 일을 할 수 있는 이유는 업계의 확실한 선두 주자이며, 소규모 모델 학습을 지원하고 비용을 절감할 만큼 충분한 데이터를 보유하고 있기 때문입니다. 하지만 대부분의 기업은 업계 선두 주자가 되기 전에는 일반적인 대규모 모델을 학습시키는 거대 기업과 경쟁할 수 있는 데이터 수집 역량을 갖추지 못했습니다.

리첸중: 이는 또한 대형 모델이 처음 등장했을 때 모두가 일반적으로 모델 미세 조정에 집중했던 이유를 설명합니다. 대형 모델은 매우 빠르게 반복되기 때문에 버전 업그레이드가 종종 오버레이 기반으로 이루어집니다. 본질적으로 풍부한 자원을 보유한 최고 팀이나 대기업만이 대형 모델 훈련에 지속적으로 투자할 수 있습니다. 일반 팀이 훈련에 투자하면 단기적으로 범용 대형 모델의 발전에 따라 결과가 뒤집힐 가능성이 높습니다.

제 생각에 유일하게 가치 있거나 임계적인 상황은 데이터가 인터넷에서 얻을 수 없는 독점적인 리소스이거나, 특정 수직 분야에서 고도로 개인화되어 외부 기업이 접근하기 매우 어려운 경우뿐입니다. 일반 대규모 모델의 학습은 사용 가능한 모든 데이터를 흡수하므로, 진정으로 "데이터 사일로"에 존재하는 정보만이 고유한 이점을 제공할 수 있습니다. 데이터가 이러한 특성을 지니지 않는다면, 일반 대규모 모델의 빠른 반복 기능을 통해 특정 팀의 학습 결과를 빠르게 처리할 수 있을 것입니다.

장하오양: 두 분은 미래에 진정한 만능 에이전트가 등장할 것이라고 생각하시나요? 마누스 같은 제품에 투자할 가치가 있을까요?

저는 개인적으로 보편적 에이전트가 현실이 될 것이라고 생각하지 않습니다. 개인 도메인 데이터와 모델은 고유한 가치를 지니고 있으며, 방대한 양의 데이터만 보유한 대기업이 쉽게 복제할 수 없기 때문입니다. 이를 위해서는 심층적인 산업 지식(노하우)이 필요한 경우가 많습니다. 핵심은 데이터와 제품이 긴밀하게 결합되어야 실질적인 장벽을 형성할 수 있다는 것입니다.

저희 게임을 예로 들어보겠습니다. 저희는 게임 환경에만 적용되는 규칙을 가진 독점적인 인터페이스 세트를 설계했습니다. 플레이어는 자연어 명령어를 통해 AI가 게임 내에서 새로운 로직을 생성하도록 합니다. 그런 다음, 생성된 데이터를 사용하여 독점적인 소규모 모델을 미세 조정하여 해당 제품의 코드 생성 능력을 향상시킵니다. 대기업이 이러한 종류의 데이터를 확보하더라도 특정 제품에 밀접하게 연관되어 있기 때문에 효과적으로 활용하기 어렵습니다. 따라서 특정 제품에 대한 프라이빗 도메인 모델을 구축하는 것은 여전히 중요합니다. 물론 대기업이 특정 수직 분야에서 획기적인 성과를 거둘 수는 있지만, 그들의 모델 결과는 궁극적으로 특정 제품에만 적용될 뿐, 만능이 될 수는 없습니다.

미래의 제품 결과물은 더 이상 코드 자체가 아니라, MAAS(Model as a Service)로 이해될 수 있는 모델 기반 역량이 될 것이라고 생각합니다. 제품은 자체 반복 및 진화를 달성하기 위해 대규모 모델에 의해 구동될 것입니다. 이것이 제가 일반 에이전트에 의문을 제기하는 핵심 이유입니다. Manus가 유사한 제품인지, "보편성"이 제한적이며, 특정 시나리오에서의 성능이 해당 분야에 집중하는 팀의 제품보다 떨어지는 경우가 많습니다.

좀 더 넓은 관점에서 보면, 모든 세그먼트의 사용자 경험과 데이터를 미세 조정하여 만족스러운 결과를 도출하는 데 막대한 인력을 투자하는 것은 불가능하다고 생각합니다. 적어도 향후 3~5년 안에는 불가능합니다. AI 기술이 스스로 학습할 수 있는 수준까지 발전하지 않는 한, 예를 들어 GAN과 같은 좌우 격투 메커니즘을 통해 특정 시나리오에서 지속적으로 최적화를 수행하고 결국 해당 분야의 선도 제품 수준에 도달하지 않는 한, 이 "보편적 에이전트"가 여전히 "보편적"이라고 불릴 수 있을지 의문입니다.

리천중: 수직 분야의 심층적인 애플리케이션 시나리오에 대해 더 자세히 논의하고 있습니다. 이러한 시나리오는 단일 제품으로는 처리하기 어려울 수 있습니다. 일반적인 대규모 모델은 더 강력한 인텔리전스, 향상된 명령 준수, 더 빠른 응답 속도, 그리고 더욱 완전한 추론 체인과 같은 기본적인 기능을 제공합니다.

기본 역량을 수직 분야에 적용할 경우, 해당 분야에 맞춰 맞춤화해야 하는데, 이는 인간의 분업과 유사합니다. 모든 사람의 생리적 기저는 본질적으로 유사하지만, 전문적인 깊이는 해당 산업에 대한 심도 있는 연구를 통해 형성됩니다. 특정 수직 분야에 구축된 시스템은 해당 분야를 중심으로 지속적으로 축적되고 최적화되어, 해당 분야에서 더욱 심층적이고 전문화될 것입니다. 기본 모델은 동일할 수 있지만, 애플리케이션 계층의 설계는 특정 방향에 초점을 맞추도록 합니다.

제가 보편적 에이전트가 실현 가능하다고 믿는 이유는 단일 에이전트가 적응 없이 모든 도메인 작업을 처리할 수 있기 때문이 아니라, 그러한 에이전트가 인간과 유사한 기본 역량 프레임 갖추고 있기 때문입니다. 즉, "원숭이에서 인간으로" 진화를 완료했으며, 계획 능력, 배경 정보에 기반한 논리적 추론 능력, 그리고 도구 호출 능력을 갖추고 있습니다. 다양한 분야에 적용하면 성능이 달라질 것입니다. 그 이유는 다음과 같습니다. 첫째, 구성된 도메인 지식 베이스가 다르고, RAG를 통해 검색되는 지식도 다릅니다. 둘째, 구성된 도메인 도구가 다릅니다. 어떤 에이전트도 모든 MCP 도구를 갖추고 있지는 않습니다. Manus조차도 특정 도메인 요구 사항에 따라 해당 도구만 구성할 것입니다. 예를 들어, 게임 분야의 에이전트는 게임 제품과 결합된 MCP 도구를 갖추고, 의료 또는 기타 분야의 에이전트는 해당 분야와 관련된 도구 세트를 갖추고 있습니다.

따라서 Manus 구축의 논리는 핵심 기반이 보편적 역량을 갖추고 있다는 것입니다. 해당 입력 소스, 전용 툴 체인, 그리고 도메인 지식 베이스가 목표 분야에 탑재되면, 해당 분야에서 효과적인 응용 시스템으로 전환될 수 있습니다. 이것이 바로 보편적 에이전트의 존재 의미입니다.

쉬 웬젠: 유니버설 에이전트는 모든 작업을 수행할 필요도 없고, "만능" 제품일 필요도 없습니다. 핵심 백본 역할을 수행하여 일반적인 기능 처리에 집중하는 동시에, 수직 분야의 전문 지식은 탑재된 다양한 수직 에이전트에게 맡길 수 있습니다. 유니버설 에이전트의 핵심 가치는 다양한 기능 모듈 연결하는 진입점 또는 통합 허브 역할을 하는 것입니다.

장하오양: OpenAI는 오래전에 함수 호출 메커니즘을 제안했고, 오픈소스 커뮤니티 또한 유사한 기능을 모색해 왔습니다. 하지만 이러한 유형의 제품은 올해 들어서야 폭발적으로 성장했습니다. 근본적인 이유는 기반 모델의 성능 향상에 있다고 생각합니다. 함수 호출은 본질적으로 도구 호출 프로토콜과 크게 다르지 않으며, 두 프로토콜의 핵심은 외부 명령을 실행하는 것입니다. 이전에도 함수 호출을 통해 명령줄이나 도구 체인을 호출하여 유사한 기능을 구현하려는 시도가 있었지만, 그 효과는 제한적이었습니다. Manus의 인기는 Claude 3.7 출시와 맞물려 있었는데, 이는 모델 기반 성능이 임계점에 도달했다는 것이 핵심 동력임을 보여줍니다. 또한, 거대 기업들이 통합 도구 표준을 제정하고 강력한 기반 모델을 공개한다면, 사용자들은 기반 기능에 따라 세분화된 애플리케이션을 직접 개발할 수 있습니다. 현재로서는 Manus와 같은 캡슐화 계층의 가치에 의문이 제기됩니다.

쉬 웬젠: 하오양 씨, 우리 인지의 핵심적인 차이점은 에이전트 장벽에 대한 판단에 있을 수 있습니다. 당신이 제시한 "제품-데이터-모델" 삼각형에서, 저는 특히 에이전트 자체에 고유한 장벽이 있다고 생각합니다. 에이전트의 가치는 수직 분야에 대한 전문 지식에 뿌리를 두고 있습니다. 에이전트의 장점은 지속적으로 반복될 수 있다는 것입니다. 일반적인 대형 모델의 업그레이드에 의존하여 특정 분야에서는 항상 일반 모델보다 "한 발 앞서" 있습니다. 이러한 장점은 수직 분야에 대한 깊은 이해와 최적화에서 비롯됩니다. 따라서 일반 모델이 어떻게 진화하든 도메인 전문 지식을 갖춘 에이전트는 항상 지역적 우위를 유지할 수 있습니다.

리첸중: 본질적으로 함수 호출과 MCP 사이에는 큰 차이가 없습니다. MCP의 가치는 산업 표준화를 촉진하고 도구 호출을 더욱 중앙 집중화하고 표준화하는 데 있습니다. 그러나 훌륭한 에이전트를 구축하는 데 있어 핵심적인 어려움은 계획 능력에 있으며, 마누스의 미래는 바로 이 점에 있습니다. 목표를 중심으로 작업 단계를 효과적으로 분해하고 제자리에서 실행하는 방법입니다. 이러한 작업 계획은 특정 분야에 따라 다르지만, 수직적 영역과 무관한 기본적인 수준을 가지고 있습니다. 전문적인 속성을 제외하면 누구나 장보기나 여행과 같은 일상 업무를 계획할 수 있는 능력을 가지고 있습니다. 프로그래머와 같은 전문적인 속성을 추가하면 시스템 아키텍처를 설계하고, 코드를 작성하고, 다양한 전용 도구를 사용할 수 있는 능력을 갖게 됩니다. 그런 다음 제품 출시라는 목표를 중심으로 일련의 작업 계획 및 분해를 수행하고 위의 기능을 활용하게 됩니다. 따라서 에이전트는 수직적 영역에서 차별화되지만, 그 기반은 수직적 영역과 무관한 기본적인 계획 능력을 갖게 됩니다.

미래의 제품 형태에 대한 제 생각은 더욱 급진적일 수 있습니다. 아마도 최종 형태는 "데이터-에이전트"로 진화할 것입니다. 모든 상호작용 인터페이스는 현재 시나리오를 기반으로 동적으로 생성될 수 있으며, 비용은 거의 0에 가깝습니다. 마치 영화 "아이언맨"의 자비스처럼, 필요에 따라 실시간으로 인터페이스를 생성하고, 도구를 활용하며, 지식 기반과 결합하여 동적 응답을 제공할 수 있습니다.

에이전트 생태계와 관련하여, 미래에는 핵심 계획/사고/인식/도구 호출 기능을 갖춘 범용 에이전트 프레임 제한적으로만 존재할 것으로 예상합니다. 이러한 범용 프레임워크를 기반으로 다양한 분야의 전문 지식과 시나리오를 결합하여 다양하고 풍부한 수직 애플리케이션을 구축할 수 있습니다. 범용 에이전트 프레임 대량으로 필요하지는 않지만, 상위 레벨 애플리케이션은 많이 존재할 것입니다.

청중: 마누스 스타일의 기업가적 기회에 대해 어떻게 생각하시나요?

리천중: 일반 에이전트 기반 수직 시장에서 사업을 시작할 기회가 전혀 없다고는 할 수 없습니다. 하지만 개발 속도, 혁신, 그리고 효과가 기존 업체들을 능가할 수 있느냐에 달려 있습니다. 마치 DeepSeek의 등장처럼 말입니다. 계획 역량, 툴 호출, 의도 인식과 같은 핵심 요소에서 상당한 혁신을 이루는 등 고유한 방법이 있다면 시도해 볼 가치가 있다고 생각합니다.

장하오양: 가능성은 크지 않다고 생각합니다. 저는 마누스 창업팀과 직접 만나 무명에서 하룻밤 사이에 명성을 얻는 과정을 직접 목격했습니다. 벤처 캐피털 관점에서 마누스의 성공은 "셀프 미디어 카니발"과 같습니다. 영향력 있는 국내 셀프 미디어들이 마누스의 인기를 적극적으로 홍보했고, 국내 시장보다는 해외 사용자를 우선적으로 공략하는 전략 또한 주목할 만합니다. 마누스는 인기를 얻은 후 텐센트로부터 빠르게 투자를 유치했고, 기업 가치는 수십억 달러로 치솟았습니다. 하지만 이는 자본 시장을 위한 "쇼"에 가깝다고 생각합니다. 실제 제품 가치는 아직 일반 에이전트의 이상적인 수준에 도달하지 못했습니다. 초기 체험 사용자들의 피드백은 예상보다 낮았고, 오픈 이후의 인기 또한 시들해졌으며, 사용자 경험 또한 완벽하지 않습니다. 세분화된 여러 시나리오에서 특정 워크플로우와 대규모 모델 기능을 결합하면 문제를 더욱 효과적으로 해결할 수 있습니다.

따라서 마누스 같은 사업을 시작할 가능성은 희박합니다. 팀의 능력을 의심하는 것은 아니지만, 이 문제에는 "제1원인효과"가 있습니다. 첫 번째는 천재적이지만 두 번째는 무의미합니다. 특히 마누스의 브랜드 효과가 형성되고 기술적 장벽이 종종 의문시되는 상황에서 자본이 이러한 이야기를 다시 받아들이기는 어렵습니다. 후속 모방자들은 "마누스가 막대한 자금을 지원받았는데, 어떻게 그것을 능가할 수 있을까?"라는 의문에 직면하게 될 것입니다.

또한, 저는 "범용 에이전트 제품"의 실현 가능성에 대해 항상 의문을 품습니다. 한 팀이 모든 애플리케이션 시나리오를 해결할 수 있다고 생각하지 않습니다. 에이전트 "기반" 자체를 제공할 수 있는 위치에 있지 않는 한 말입니다. 하지만 현재 단계에서는 기술을 캡슐화할 전문 팀이 여전히 필요합니다. 미래에는 대규모 모델이 기반 인프라로 발전할 수 있습니다. 사용자는 주변 에이전트에 요구 사항만 입력하면 에이전트가 독립적으로 코드를 작성하고, 프레임 구축하고, 결과를 반환할 수 있게 될 것입니다. 그때쯤이면 상위 프레임 에 집중하는 팀은 더 이상 필요하지 않게 되고, 핵심 기능은 인프라 계층(인프라)에 할당될 것입니다.

0부터 1까지 AI 제품을 개발하는 데 가장 어려운 부분은 무엇입니까?

쉬 웬젠: 저희 모두 AI 프로젝트를 처음부터 진행해 왔습니다. 경험상 가장 어려운 부분은 무엇인가요? 모델 성능인가요? 사용자 폐쇄 루프인가요? 아니면 다른 문제인가요?

리첸중: 실제로 모델 성능이 주요 병목 현상이었지만, 이는 상대적인 문제였습니다. 장면을 선택한 후 모델 효과가 불안정하거나 예상보다 낮은 경우가 많아 초기 단계에서 종종 문제가 발생합니다. 모델이 업그레이드됨에 따라 점진적으로 개선해야 합니다. 하지만 프로젝트 실행 과정에서 해결책을 찾았습니다. 모델이 기본적인 수준에 도달하면 모델 자체가 반드시 병목 현상이 되는 것은 아닙니다.

사용자 사용 습관을 살펴보면, 흔히 저지르는 오해 중 하나는 여러 복잡한 작업을 포함하는 긴 프롬프트 단어(수백 또는 수천 단어)를 모델에 직접 입력하여 불안정한 출력을 생성하는 것입니다. 이 경우, 모델 성능 저하를 모델 탓으로 돌리기 쉽습니다. 개선 방법은 복잡한 작업을 여러 개의 간단한 하위 작업으로 나누고 현재 모델이 단계적으로 실행하도록 하는 것입니다. 실제로는 모델이 간단한 작업에 더 안정적으로 반응하는 것으로 나타났습니다. 모델이 업그레이드됨에 따라 전체적인 효과는 기존 모델보다 더욱 향상될 것입니다. 이는 경영과 유사합니다. 복잡한 작업 대면, 더 똑똑한 사람들을 대체하는 것(모델 업그레이드)이 해결책 중 하나이지만, 작업을 세분화하고 일반인에게 실행하는 것(현재 모델)도 가능합니다.

따라서 모델이 기본 역량선에 도달하기만 하면 대부분의 시나리오에서 병목 현상은 해결될 수 있습니다. 모델 역량과 상업적 타당성을 구분할 필요가 있습니다. 모델 효과는 기본적인 지원이지만, 프로젝트의 성공 여부는 비즈니스 모델 자체의 확립 여부에 더 크게 좌우됩니다. 유효하지 않은 모델에서는 모델 효과가 아무리 좋더라도 무의미합니다.

장하오양: 리 씨는 제품과 기술의 적합성(TPF)이 핵심이라고 지적했습니다. 저는 4년 동안 대형 모델 적용을 직접 경험해 왔는데, 가장 큰 체감은 모델 역량의 빠른 향상으로 대량 불필요한 작업이 점차 사라지고 있다는 것입니다. 마누스 팀 또한 모델 기반 역량이 강화된 후 많은 프롬프트 워드 프로젝트가 더 이상 필요하지 않게 되었고, 지시를 따르고, 반영하고, 계획하는 능력이 크게 향상되었다고 밝혔습니다.

TPF의 핵심은 모델 성능이 사용자가 기대하는 제공 수준보다 낮을 경우, 그 차이를 수동으로 메워야 한다는 것입니다. 오늘날 모델 성능은 사용자 요구 사항에 무한히 근접하거나 심지어 초과하고 있으며, 과제는 더 높은 수준의 제어 및 아키텍처 설계로 전환됩니다. 예를 들어, AI 프로그래밍 도구는 코드 실행 수준에서는 우수한 성능을 보이지만, 시스템 아키텍처 설계에는 여전히 단점이 있습니다.

또 다른 까다로운 문제는 메모리 메커니즘입니다. 컨텍스트 윈도우를 수백만 개의 토큰으로 확장하더라도, 이 모델은 주의 분산 불균형이나 중간 세그먼트 정보 망각과 같은 문제를 여전히 안고 있습니다. 현재 최적의 해는 여전히 RAG와 그 변형 모델입니다. 앞으로 이 모델이 검색 순서(Rerank)와 메모리 성능에서 획기적인 발전을 이룬다면, 근본적인 최적화 작업이 크게 간소화될 것입니다. 이러한 어려움에도 불구하고, 저는 일반적으로 조심스럽게 낙관적입니다. 이 모델이 "기억력이 없는 초인"으로 여겨진다 하더라도, 그 가치는 충분히 큽니다.

리첸중: 최근 한 가지 의문을 품고 있었습니다. 왜 모델의 성능이 크게 개선된 후에도 예상치 못한 결과가 나오는 걸까요? 핵심적인 사실을 발견했습니다. 모델이 충분히 똑똑하지 않은 것은 아니지만, 방대한 지식 덕분에 문제 대면 때 여러 가지 해결책을 생각해 낼 수 있는 반면, 인간은 자신의 지식에 제약을 받아 한두 가지 해결책만 예상하는 경우가 많습니다. 모델이 우리가 예측하지 못한 아이디어를 내놓을 때, 우리는 편향된 생각을 하게 되기 쉽습니다.

이러한 차이의 근본 원인은 제약 조건의 부재에 있을 수 있습니다. 인간이 결정을 내릴 때는 눈에 보이지 않는 제약 조건이 존재합니다. 개인의 지식 경계와 환경 정보(시각적, 청각적, 사회적 단서 등)가 함께 예상 경로를 형성합니다. 그러나 이 모델은 입력 텍스트 프롬프트에만 의존하며 이러한 잠재적 상황적 제약 조건이 부족하여 겉보기에는 "이상해 보이지만" 논리적으로는 자기 일관성이 있는 해결책이 도출될 수 있습니다. 따라서 경우에 따라 추가적인 명시적 제약 조건 설명이나 요구 사항을 제공해야 합니다.

미래에 모델이 더 발전하더라도 이러한 정보 비대칭성을 해소할 수 없다면, 두 가지 경향이 여전히 존재할 것입니다. 특정 시나리오에 과적합되어 유연성을 잃거나, 기술적 수단을 사용하여 인간이 수신한 암묵적 제약 정보를 시뮬레이션하는 것입니다. 이는 현재 모델 상호작용에서 주목할 만한 문제입니다.

장하오양: 이는 다중 모드 역량의 중요성을 강조합니다.

리천중: 네. 모델이 사용자의 맥락적 기대에 정확하게 부합하려면 사람과 유사한 입력 차원을 확보해야 합니다. 그렇지 않으면 마치 두 사람이 서로의 의도를 추측하는 것처럼, 편차가 불가피하게 발생합니다. 모델이 암묵적 기대에 완벽하게 부합하는 것은 더욱 어렵습니다. 이는 앞으로 극복해야 할 방향입니다.

쉬 웬젠: 본질적으로 AI의 인식을 현실 세계로 확장해야 합니다. 시각, 청각, 촉각 등 다양한 차원에서 더욱 긴밀한 연결을 구축해야 합니다. 이렇게 해야만 AI 모델이 복잡한 상황의 암묵적인 조건을 이해하고 대응할 수 있습니다.

인재 기준이 다시 작성되고 있는가?

대상: LLM 제품 개발에 가장 필요한 인재 유형이 바뀌었나요? 팀을 구성할 때 가장 먼저 찾는 인재 유형은 무엇인가요?

장하오양: 기업가로서 저는 조직 형태의 변화를 직접 경험하고 실천합니다. "슈퍼 개인"이라는 개념에 깊이 공감합니다. 대기업에서 일할 당시 저는 이러한 역할을 수행하고자 노력했고, AI를 활용하여 업무를 지원했습니다. 에이전트 기능 향상으로 이제는 디지털 직원으로 구성된 팀처럼 일합니다. 자체 개발한 에이전트 도구와 커서를 사용한 후, 팀 엔지니어의 평균 유효 코드 출력량이 주당 약 1,500줄에서 3만 줄로 증가하여 생산 용량이 20배 증가했습니다.

저는 이러한 변화가 보편적인 현상이 될 것이라고 생각합니다. 따라서 인재 구조도 필연적으로 변화할 것입니다. 개인은 전술적 실행자에서 전략적 설계자로 변화해야 합니다. 미래의 핵심 역량은 관리이지만, 관리 대상은 사람에서 AI 에이전트로 바뀔 것입니다. 핵심은 문제 해결을 위해 다양한 역량 리소스를 활용하는 법을 배우는 것입니다. 자신의 요구를 명확하게 표현하고, 에이전트의 향상된 지시 수행 능력을 활용하여 복잡한 작업을 실행 가능한 하위 작업으로 세분화할 수 있다면, 에이전트 팀의 효율적인 협업을 이끌어낼 수 있습니다.

현재 에이전트에게 가장 부족한 것은 글로벌 아키텍처 역량입니다. 특정 분야의 문제 해결에는 능숙하지만, 전체적인 해결책을 조율하는 데는 어려움을 겪습니다. 따라서 미래에 필요한 것은 복합적인 재능입니다. 모든 분야에 능숙할 필요는 없지만, 크로스 도메인 비전과 정확한 질문을 던질 수 있는 능력이 필요합니다. 예를 들어, 게임 엔지니어인 저는 프런트엔드 개발에 주로 능숙하지만 서버 사이드에 대한 지식도 갖추고 있습니다. 전문적인 질문을 통해 AI를 유도하고, 제가 직접 수행한 검사 결과와 크로스 엔드 통합 역량을 활용하여 에이전트를 활용하여 전체 연결 작업을 완료할 수 있습니다.

전통적인 인재들은 수직 분야에 대한 심층적인 전문성을 강조하며, 대규모 조직에서 전문가 또는 실행자 역할을 수행합니다. 미래 인재의 핵심 가치는 폭넓은 시야에 있습니다. 예를 들어, 개발자는 디자인, 제품, 그리고 예술적 논리를 동시에 이해합니다. 이러한 교차 도메인 인지 능력과 에이전트 협업 역량을 갖춘 인재는 진정한 슈퍼맨이 될 것입니다.

리천중: 인터넷 초창기를 돌이켜보면, 뛰어난 프로그래머들은 대개 독립적으로 프로젝트를 완료할 수 있었고 풀스택 역량을 갖추고 있었습니다. 산업이 성장함에 따라 효율성 향상을 목표로 분업화(프런트엔드, 백엔드, 데이터, 알고리즘 등)가 등장하기 시작했습니다. 하지만 분업을 전문직과 동일시해서는 안 됩니다. 저는 특히 분업화("나는 백엔드다", "나는 프런트엔드다")를 전문직으로 취급하는 것에 반대합니다. 왜냐하면 그렇게 하면 개인이 폐쇄형 루프 작업을 독립적으로 완료할 수 있는 능력을 잃을 수 있기 때문입니다.

AI의 발전은 이러한 본질로의 회귀를 가속화하고 있습니다. 기존 모델에서는 분업과 전문화를 지나치게 강조하면 개인의 문제 해결 능력이 약화될 수 있습니다. AI가 모든 복잡한 문제 처리에서 인간을 완전히 대체할 수는 없지만, 실행의 문턱은 크게 낮아졌습니다. 미래 인재의 핵심은 "AI 엔지니어"가 될 것입니다. 즉, 목표 또는 제품을 도출하는 전 과정에 걸쳐 기본적인 이해와 운영 역량을 갖춰야 합니다. 단일 분업 사고방식에 고착하면 미래에 적응하기 어려울 것입니다.

AI 역량이 향상됨에 따라 특정 실행 직책(예: 순수 테스트 엔지니어)의 필요성은 감소할 것입니다. 핵심은 비즈니스 모델, 제품 정의부터 구현 경로까지 전 세계적으로 제품을 계획하고 AI 도구 또는 "디지털 직원"의 협업 및 실행을 효과적으로 지휘할 수 있는 사람이 필요하다는 것입니다. 이러한 글로벌 계획 및 통합 능력이 부족하고 특정 기술 분야(예: 백엔드 개발 또는 알고리즘)에만 능숙한 인재는 경쟁력 확보에 어려움을 겪을 것입니다.

따라서 저는 인재 선발 시 근본적인 잠재력, 즉 강한 내적 추진력, 탐구심, 문제 해결에 대한 용기와 끈기를 더욱 중요하게 생각합니다. 기술적인 능력은 함양할 수 있지만, 스스로 주제를 찾고, 깊이 있게 연구하고, 미지의 대면 목표를 달성하기 위해 자원을 통합하는 능력이 핵심입니다. 이러한 기본적인 자질과 정상적인 수준의 지능만 갖추면 필요한 상위 수준의 기술을 습득하는 것은 시간문제일 뿐입니다.

청중: 인공지능의 미래 직업 전망은 어떤가요? 진입 장벽이 매우 높은가요?

리천중: 첫 번째 질문은 이겁니다. 이 분야를 정말 좋아하시나요? 만약 좋아한다면 미래에 대해 너무 걱정할 필요가 없습니다. 분명 이 분야에서 대부분의 사람들을 능가할 수 있고, 자연스럽게 훌륭한 성과를 낼 수 있을 겁니다. 하지만 정말 좋아하지 않는다면 대부분의 사람들과 경쟁해야 할 겁니다.

장하오양: 최근 미국 조사에 따르면 실업률이 가장 높은 전공은 컴퓨터 과학인데, 이는 10여 년 전 이 전공 졸업생들이 "옆으로 걷는" 풍습과는 극명한 대조를 이룹니다. 어떤 의미에서 대형 모델 개발은 "프로그래머가 프로그래머를 죽이는" 현상의 징후입니다. 인간이 기계를 제어하는 지능이 새로운 단계로 발전함에 따라, 대량 의 하위 직종 종사자들이 도태될 리스크 에 직면할 수 있습니다. 특히 AI는 여러 산업에서 하위 직종의 역량을 대체할 수 있었습니다.

인공지능 전공 학생들의 전망에는 냉혹한 현실이 존재합니다. 해당 분야 상위 5%, 혹은 그 이상의 천재들만이 상당한 경쟁력을 가질 수 있다는 것입니다. 미래에는 AI 진화의 핵심 동력이 되려면 AI보다 더 똑똑해야 하기 때문입니다. AI 역량이 인간의 수년, 수십 년에 걸친 전문 지식을 뛰어넘을 때, 에이전트 매니저로 변신하거나 학제적 사고를 할 수 없다면 도태될 수밖에 없습니다. AI가 사람을 대체하는 것이 아니라, AI를 활용할 수 있는 사람들이 AI를 활용할 수 없는 사람들을 대체할 것입니다. 인공지능을 공부하는 이점은 체계적인 이론을 통해 기술의 본질에 대한 이해를 심화할 수 있다는 것입니다. 핵심은 해당 분야의 소수가 되거나, 다른 분야에서 AI 역량을 강화하는 것입니다. 이러한 깊은 이해는 다른 사람들보다 더 앞서 나갈 수 있도록 도와줍니다.

리천중: 저는 코딩 커뮤니티를 프로그래머(혁신적인 능력, 탐구 정신, 그리고 프레임 제작 능력을 갖춘 창작자)와 코더(코딩 작업을 수행하는 기계 작업자) 두 가지 범주로 나눕니다. AI 시대에도 최고의 프로그래머는 여전히 폭넓은 전망을 가지고 있지만, 코더 유형의 역할은 AI로 빠르게 대체될 것입니다. AI가 창의적이기는 하지만, 인간은 더욱 혁신적인 창작 분야에서 AI를 능가해야만 그 가치를 유지할 수 있기 때문입니다.

쉬원젠: 기술적 세부 사항에 구애받지 말고, 시야를 넓히고, 새로운 트렌드와 새로운 역량을 적극적으로 수용하며, AI가 주도하는 시대의 변화에 적극적으로 적응하세요.

본 기사는 WeChat 공개 계정 "InfoQ"(ID: infoqchina) 에서 발췌하였으며, 저자는 AICon이고, 36氪의 출판 허가를 받았습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트