7월 23일, 세쿼이아 캐피털은 OpenAI ChatGPT 에이전트 팀원들과 기술 혁신과 미래 잠재력에 대한 논의를 위해 대담을 가졌습니다. 이 대담은 세쿼이아 캐피털의 파트너인 소냐 황과 로렌 리더가 공동으로 진행했으며, ChatGPT 에이전트 출시 행사에 참여한 OpenAI 팀원인 이사 풀포드, 케이시 추, 에드워드 선이 참석했습니다.
이 대화에서 두 사람은 ChatGPT Agent의 개발 과정을 공유하고, ChatGPT Agent가 Deep Research와 Operator의 장점을 결합하여 크로스 도메인 작업을 효율적으로 실행하는 방법을 논의했습니다. 또한, ChatGPT Agent의 보안 조치와 다양한 적용 시나리오에 대해서도 논의했습니다.
OpenAI의 비전에 따르면, ChatGPT 에이전트는 더욱 강력한 독립적 판단 능력을 갖추고, 각 사용자의 습관과 요구에 기반한 맞춤형 서비스를 제공하며, 음성, 텍스트, 이미지 등 다양한 커뮤니케이션 방식을 지원할 것입니다. 앞으로 OpenAI는 인간이 컴퓨터에서 할 수 있는 거의 모든 작업을 처리할 수 있는 범용 초지능 에이전트를 개발할 것입니다.
대화의 요약은 다음과 같습니다.
진행자: 오늘 OpenAI 팀의 Fulford, Casey Chu, 그리고 Zhiqing Sun과 함께 AI 에이전트의 발전에 대해 논의해 보겠습니다. 새로운 ChatGPT 에이전트를 개발하셨는데, 핵심 기능과 주요 혁신을 소개해 주세요.
Fulford: 함께해 주셔서 감사합니다. ChatGPT Agent는 Deep Research와 Operator 팀의 협력으로 탄생했습니다. 이 AI 에이전트는 최대 한 시간까지 걸릴 수 있는 복잡한 여러 단계의 작업을 수행할 수 있습니다. 저희는 텍스트 탐색, 시각적 탐색, 터미널 접근, API 통합을 통합하는 가상 컴퓨터 환경을 구축했으며, 이 모든 기능은 상태를 공유합니다. 마치 사람이 컴퓨터를 사용할 때 여러 애플리케이션이 파일 시스템을 공유하는 것과 유사합니다.
이러한 설계를 통해 ChatGPT 에이전트는 다양하고 복잡한 작업을 유연하게 처리하여 효율성과 기능을 크게 향상시킵니다. 특히 다중 라운드 대화에서 이 모델의 성능에 만족하며, 지속적으로 작업을 처리하고 개선해 나갈 수 있습니다. 앞으로 ChatGPT 에이전트가 사용자의 개입 없이도 작업을 수행할 수 있도록 개인화 및 메모리 기능을 더욱 강화할 계획입니다.
1 탄생과 진화
진행자: 이 프로젝트의 시작 이야기를 들려주시겠어요? 어떻게 시작하게 되셨나요?
캐시 추: 이 프로젝트는 Deep Research와 Operator의 결합에서 시작되었습니다. 2025년 1월, 온라인 쇼핑과 같은 인터넷 작업을 수행할 수 있는 Operator를 출시했습니다.
2주 후, 저희는 웹 정보를 탐색하고 종합하여 인용이 포함된 상세 연구 보고서를 생성하는 데 중점을 둔 Deep Research를 출시했습니다. 향후 개발 방향을 구상하던 중, 두 제품이 서로 보완적일 수 있다는 것을 깨달았습니다.
Operator는 웹 페이지 요소 클릭과 같은 시각적 상호작용을 처리하는 데 능숙한 반면, Deep Research는 긴 기사 읽기와 같은 텍스트 정보 처리에 더 능숙합니다. 사용자 피드백에 따르면 Deep Research가 유료 콘텐츠에 접근하기를 원하며, Operator는 이미 이러한 기능을 제공하고 있습니다. 따라서 두 가지를 결합하는 것은 자연스러운 선택입니다.
Sun Zhiqing: 저희 팀은 Deep Research와 Operator의 아키텍처를 통합함으로써 성능 면에서 큰 도약을 이루었습니다. 모든 도구는 상태를 공유하며, 사용자는 텍스트 분석, 시각적 탐색, 코드 실행 사이를 원활하게 전환할 수 있습니다. 도구의 사용 패턴을 미리 프로그래밍하는 대신, 강화 학습을 통해 모델이 수천 대의 가상 머신에서 스스로 최적의 전략을 발견하도록 합니다.
이러한 접근 방식을 통해 ChatGPT 에이전트는 사용자와 수 시간 동안 협업하여 명확한 질문을 던지고 작업 수정 사항을 수용할 수 있게 되었으며, 이를 통해 AI 에이전트와의 상호작용 방식이 크게 확장되었습니다. 또한, 보안 및 날짜 선택과 같은 작업 복잡성과 같은 과제에도 직면하게 되는데, 이는 AI에게 여전히 어려운 문제입니다. 소규모 팀이 면밀한 데이터 분석을 통해 이룬 획기적인 성과는 AI 개발이 제품 인사이트가 컴퓨팅 성능만큼 중요한 새로운 단계에 접어들었음을 보여줍니다.
Fulford: ChatGPT Agent는 사람이 대량 시간을 소모하는 복잡한 작업을 수행할 수 있습니다. 저희는 다양한 도구를 포함하는 가상 컴퓨터 환경을 제공합니다. 온라인 정보에 효율적으로 접근하기 위한 텍스트 브라우저(Deep Research 도구와 유사), 클릭, 양식 입력, 스크롤, 드래그 등의 작업을 지원하는 그래픽 사용자 인터페이스와 상호 작용할 수 있는 시각적 브라우저(Operator 도구와 유사), 그리고 코드 실행, 파일 분석, 스프레드시트나 슬라이드와 같은 출력 생성을 위한 터미널 도구가 포함됩니다.
또한, ChatGPT Agent는 API 통합을 통해 GitHub, Google Drive, SharePoint 등의 서비스에 액세스할 수 있습니다. 모든 도구는 인간 컴퓨터의 애플리케이션 공유 파일 시스템과 유사하게 상태를 공유합니다. 이러한 설계를 통해 ChatGPT Agent는 복잡한 작업에 유연하게 대응하고 사용자에게 강력한 지원을 제공할 수 있습니다.
진행자: 이 조합 과정에 대해 자세히 설명해 주시겠어요? "1+1이 2보다 크다"는 효과를 어떻게 얻을 수 있을까요?
캐시 추: 저희 팀은 Operator와 Deep Research를 별도로 개발했습니다. Operator는 웹 페이지 클릭이나 양식 작성과 같은 시각적 상호작용 처리에는 능숙하지만, 긴 글을 읽는 데는 적합하지 않습니다. Deep Research는 텍스트 정보를 효율적으로 탐색하고 종합하는 데는 능숙하지만, 상호작용성이 높은 시각적 요소를 처리하는 데는 어려움이 있습니다. 사용자들이 Operator에서 "여행 검색 후 예약하기"와 같은 Deep Research 유형의 작업을 시도하는 것을 확인했습니다.
따라서 두 도구를 결합하는 것은 자연스러운 선택입니다. 두 도구를 병합했을 뿐만 아니라, ChatGPT Agent가 더욱 다양한 작업을 수행할 수 있도록 터미널 도구, 이미지 생성 도구, API 호출 기능도 추가했습니다. 예를 들어, 터미널 도구는 계산 명령을 실행하고, 이미지 생성 도구는 슬라이드에 시각적 요소를 추가하며, API 호출은 PowerPoint 프레젠테이션을 생성할 수 있습니다.
Sun Zhiqing: 이 조합은 ChatGPT Agent의 기능을 크게 향상시킵니다. 예를 들어, 텍스트 브라우저에서 정보를 효율적으로 검색한 후, 시각적 브라우저로 전환하여 이미지나 대화형 요소를 보거나, 터미널에서 코드를 실행하여 아티팩트를 생성할 수 있습니다. 모든 도구는 상태를 공유하므로 ChatGPT Agent는 사람처럼 다양한 애플리케이션을 원활하게 실행할 수 있습니다.
저희 팀원인 에릭은 사용자의 운영자 프롬프트를 분석한 결과, 많은 작업에 "여행을 조사한 후 예약하세요"와 같은 심층 조사 유형의 요구 사항이 포함되어 있음을 발견했으며, 이를 통해 이러한 조합의 필요성이 더욱 확증되었습니다.
2 다중 시나리오 미션 기능
진행자: ChatGPT 에이전트의 구체적인 적용 시나리오는 무엇이며, 사용자들은 어떻게 사용하나요?
풀포드: 저희는 의도적으로 ChatGPT 에이전트라는 이름의 개방형 에이전트를 설계하여 사용자들이 그 잠재력을 탐구하도록 했습니다. 상세 보고서 생성과 같은 심층 연구 작업, 항공편 예약이나 온라인 쇼핑과 같은 운영자 작업, 그리고 스프레드시트나 슬라이드 작성과 같은 데이터 분석 작업에 대해 학습시켰습니다. ChatGPT 에이전트의 유연성 덕분에 사용자들이 예상치 못한 다양한 활용 사례를 발견할 것으로 기대합니다.
예를 들어, Deep Research 사용자들은 우연히 코드 검색 기능을 발견했습니다. ChatGPT Agent가 일반 사용자와 기업 사용자 모두에서 활용될 수 있기를 바랍니다. 예를 들어, 전문 사용자가 상세 보고서를 생성하거나 개인 사용자를 위한 활동을 계획하는 데 도움을 줄 수 있기를 바랍니다. 상세 보고서를 받기 위해 30분을 기다리는 일반 사용자든, 직장에서 사용하는 기업 사용자든, ChatGPT Agent는 그 역할을 해낼 수 있습니다.
캐시 추: 저는 개인적으로 Google Docs에서 데이터를 처리하고 슬라이드를 제작하여 발표하는 데 사용합니다. 또 다른 흥미로운 사례는 고대 DNA 분야의 새로운 연구 동향을 연구하는 데 사용하는 것입니다. 이 분야의 정보는 분산되어 있고 포괄적인 참고 자료가 부족하기 때문에 ChatGPT Agent를 사용하면 인터넷에서 정보를 수집하여 보고서나 슬라이드로 종합할 수 있어 제 작업이 크게 간소화됩니다.
쑨지칭: 온라인 쇼핑, 특히 제품 이미지를 보거나 검색 필터를 통해 스타일을 선택하는 등 시각적인 탐색이 필요한 상황에서 이 기능을 사용합니다. 여행이나 행사 일정을 잡는 등 활동을 계획하는 데도 매우 유용합니다. 제가 가장 좋아하는 쇼핑은 옷을 사는 것입니다. 많은 웹사이트에서 검색 필터를 처리하거나 제품의 모양을 확인하려면 시각적인 브라우저가 필요하기 때문입니다.
진행자: 이전에도 멋진 사례를 보여주셨는데, 공유해 주실 수 있나요?
Fulford: 물론입니다! 저희 동료들은 ChatGPT Agent에 웹 정보를 기반으로 OpenAI의 가치를 추정하고 스프레드시트, 요약 분석, 그리고 결과를 보여주는 슬라이드를 포함한 재무 모델을 생성해 달라고 요청했습니다. 이 작업은 28분 만에 완료되었으며, 이는 긴 작업 처리 능력을 보여주었습니다. ChatGPT Agent의 예측은 매우 대담했고, 슬라이드의 품질 또한 인상적이었습니다!
캐시 추: 이 사례는 새로운 패러다임을 제시합니다. 사용자는 작업을 제안한 후 작업을 종료할 수 있고, ChatGPT 에이전트는 일정 시간 후 상세 보고서를 가지고 돌아옵니다. ChatGPT 에이전트의 자율성이 높아질수록 작업 시간이 더 길어질 수 있는데, 이는 좋은 예입니다.
진행자: 28분도 벌써 긴 시간이네요! 혹시 더 긴 작업이 있으신가요? ChatGPT 에이전트가 장시간 실행될 때 경로를 이탈하지 않도록 어떻게 보장하시나요?
Sun Zhiqing: 최근 한 시간 동안 진행된 작업을 실행했는데, 아마 지금까지 본 작업 중 가장 긴 작업일 겁니다. 안정성을 확보하기 위해 ChatGPT 에이전트의 컨텍스트 길이를 확장하는 도구를 개발했습니다. 이를 통해 작업 진행 상황을 기록하고 복잡한 작업을 단계별로 완료할 수 있습니다.
또한, 사용자가 언제든지 ChatGPT 에이전트를 수정하고, 추가 지침을 제공하고, 상태 업데이트를 요청할 수 있도록 유연한 인간-컴퓨터 상호작용 메커니즘을 설계했습니다. 예를 들어, 사용자는 현재 진행 상황을 요약해 달라고 요청하거나 "파란색 운동화만 주세요"와 같은 지침을 추가할 수 있습니다.
풀포드: 이 협업 모델은 Slack을 통해 사람들이 소통하는 방식을 모방합니다. ChatGPT 에이전트는 필요할 때 권한 부여 또는 명확한 설명을 요구합니다. 예를 들어, 유해한 작업을 수행하거나 로그인을 요청할 때 사용자 동의를 구하는 경우가 있습니다.
저희 인터페이스를 통해 사용자는 ChatGPT 에이전트의 작동을 실시간으로 모니터링하고, 계정 로그인이나 신용카드 정보 입력 등 작업 완료 후에는 가상 컴퓨터 환경을 직접 제어할 수도 있습니다. "동료가 작업하는 모습을 언제든지 확인하고 제어할 수 있는" 이러한 경험은 매우 직관적이며, ChatGPT 에이전트에 대한 사용자의 통제력을 향상시켜 줍니다.
3 훈련과 돌파구
진행자: 기술적인 관점에서 ChatGPT 에이전트는 어떻게 훈련되나요?
케이시 추: 우리는 강화 학습(RL) 기술을 사용하여 가상 머신 환경에서 텍스트 브라우저, GUI 브라우저, 터미널, 이미지 생성 도구 등을 제공했습니다 .
ChatGPT 에이전트가 실험을 통해 최적의 도구 사용 전략을 발견하고, 작업 완료의 질과 효율성에 따라 보상을 제공할 수 있도록 복잡한 작업을 설계했습니다. 예를 들어, ChatGPT 에이전트는 먼저 텍스트 브라우저를 통해 식당 정보를 검색한 다음, GUI 브라우저를 사용하여 요리 이미지와 예약 가능 여부를 확인하거나, 웹사이트에서 데이터를 다운로드하여 터미널에서 처리할 수 있습니다. 이러한 공유 상태 도구 설계를 통해 ChatGPT 에이전트는 도구를 원활하게 전환하고 다양한 작업을 완료할 수 있습니다.
Fulford: 이전 도구 사용 방식과는 달리, 모든 도구는 마치 사람이 컴퓨터에서 여러 애플리케이션을 사용하는 것처럼 상태를 공유합니다. 이러한 설계 덕분에 ChatGPT 에이전트는 인터넷, 파일 시스템, 코드와 같은 대화형 작업을 효율적으로 처리할 수 있습니다. 도구 사용 규칙을 미리 지정하는 대신, 강화 학습을 통해 모델이 스스로 최적의 전략을 발견하도록 하는데, 그 효과는 거의 마법과 같습니다. 강화 학습은 사전 학습보다 훨씬 적은 데이터를 필요로 하며, 신중하게 선택된 고품질 데이터 세트를 통해 모델에 새로운 기술을 가르칩니다.
Sun Zhiqing: 강화 학습은 데이터 효율성이 매우 뛰어나며, 새로운 기술을 가르치는 데 소량의 고품질 데이터 세트만 필요합니다. 예를 들어, 틈새 정보 검색, 장문 보고서 작성 등 다양한 작업을 생성했습니다. 출력 품질을 평가할 수만 있다면 강화 학습을 통해 성능을 효과적으로 향상시킬 수 있습니다. Operator 함수의 성능을 높이기 위해 지난 2~3년 동안 모델이 시각적 요소와 페이지 상호작용을 이해할 수 있도록 대량 시간을 투자했으며, 이를 통해 현재 ChatGPT 에이전트의 기반을 마련했습니다.
호스트: 이 강화 학습 방법이 OpenAI가 AI 에이전트를 훈련하는 표준 방식인가요?
풀포드: 저희는 이 접근 방식이 엄청난 잠재력을 가지고 있다고 생각합니다. 이번 릴리스는 저희 팀이 함께 개발한 최소 기능 제품(MVP)이지만, 이미 강력한 역량을 보여주고 있습니다. 예를 들어, 슬라이드쇼 생성 기능은 많은 팀원들의 노고 덕분에 매우 훌륭합니다. 동일한 기술을 사용하여 더욱 개선할 수 있다고 생각하지만, 다른 기술의 도입이 필요할 수도 있습니다.
캐시 추: 이 접근법은 정말 놀랍습니다. 동일한 강화 학습 알고리즘이 Deep Research, Operator, 그리고 이제는 ChatGPT Agent를 사용하는 컴퓨터에도 적용됩니다. 저희는 짧은 기간 안에 이러한 성과를 달성했으며, 앞으로도 개선의 여지가 많습니다.
호스트: 강화 학습에서 상호작용을 위한 특별한 훈련 방법이 있나요?
Zhiqing Sun: 저희는 사용자 프롬프트부터 작업 완료까지 엔드 투 엔드 성능에 집중합니다. ChatGPT Agent는 사용자와의 상호 작용에서 우수한 성능을 보이는데, 이는 저희가 다양한 작업 경로를 교육 과정에 통합했기 때문입니다. 사용자는 언제든지 개입하여 설명이나 수정을 제공할 수 있으며, 피드백을 기반으로 동작을 조정할 수 있습니다.
진행자: 초기 World of Bits 프로젝트(OpenAI에서 개발한 일반 AI 학습 플랫폼)에서는 강화 학습을 사용하여 마우스 경로를 제어하려고 했지만, 문제가 너무 복잡했습니다. 이 문제를 해결하기 위해 현재 어떤 변화가 있었나요?
Sun Zhiqing: ChatGPT 에이전트 개발은 2017년 World of Bits 프로젝트로 거슬러 올라갑니다. 당시 저희는 농담 삼아 "World of Bits 2"라고 불렀습니다. 가장 큰 변화는 학습 규모의 증가입니다. 사전 학습이든 강화 학습이든 컴퓨팅 용량이 수십만 배 증가했을 수 있습니다. 데이터 규모와 컴퓨팅 성능의 향상을 통해 저희는 목표를 달성할 수 있었습니다.
4. "통제력 상실"을 방지하는 방법
진행자: ChatGPT 에이전트는 외부 작업을 수행할 때 보안과 안정성을 어떻게 보장합니까?
Fulford: ChatGPT Agent는 웹사이트에 접속하거나 API를 호출하는 등 외부 세계와 상호 작용할 수 있으므로 보안이 핵심적인 관심사입니다.
Deep Research의 읽기 전용 모드와 비교했을 때, ChatGPT Agent는 작업 완료 중 예상치 못한 파괴적인 행위를 수행하는 등 더 큰 리스크 초래할 수 있습니다. 예를 들어 , 사용자 만족을 위해 100가지 이상의 옵션을 구매하는 등의 행위가 발생할 수 있습니다. 이를 위해 당사는 내부 및 외부 레드팀 테스트, 실시간 모니터링 시스템(백신 소프트웨어와 유사), 새로운 위협에 대한 신속한 대응을 위한 프로토콜 등 다층적인 보안 조치를 구현했습니다 . 특히 ChatGPT Agent가 생화학 무기 제작에 사용되는 것을 방지하는 등 생물학적 리스크 과 같은 심각한 문제에 주의를 기울이고 있습니다.
캐시 추: 인터넷은 피싱 공격, 사기 등 다양한 리스크 으로 가득 차 있습니다. 저희 모델은 일부 리스크 식별하도록 훈련되었지만, 때로는 작업을 완료하는 데 너무 열중하여 속아 넘어갈 수도 있습니다. 저희는 ChatGPT 에이전트의 동작을 모니터링하는 실시간 모니터링 시스템을 개발했습니다. 의심스러운 작업(예: 비정상적인 웹사이트 방문)이 발견되면 해당 작업은 즉시 중단됩니다.
또한, 바이러스 백신 소프트웨어 업데이트와 유사하게 새로운 위협에 신속하게 대응하기 위한 프로토콜을 구축하고 있습니다. 기업 리스크 팀의 완화 노력 덕분에, 이 모델이 유해한 목적으로 사용되지 않도록 몇 주에 걸쳐 레드팀 테스트를 실시했습니다.
풀포드: 보안 교육은 보안, 거버넌스, 법무, 연구 및 엔지니어링 팀이 참여하는 팀 간 협력입니다. 저희는 모든 단계에서 보안을 구현했으며, 새로운 위협에 대응하기 위해 지속적으로 개선해 나갈 것입니다. 예를 들어, ChatGPT 에이전트가 은행 계좌 로그인과 같은 민감한 작업을 수행하기 전에 사용자 허가를 받도록 하고 있습니다.
5. 무대 뒤의 팀워크
진행자: 개발팀은 어떻게 협업하나요? 팀 규모는 어떻게 되나요?
Fulford: 저희 팀은 Deep Research와 Operator의 연구팀과 응용팀이 합쳐진 팀으로, 전체 인원은 많지 않습니다. Deep Research 팀은 초기에 3~4명, Operator 팀은 약 6~8명으로 구성되었으며, 여기에 Yash Kumar가 이끄는 뛰어난 엔지니어링 및 제품 디자인팀이 더해졌습니다. 연구팀과 응용팀은 긴밀히 협력하며, 제품 기능 정의부터 모델 학습까지 사용자 시나리오 중심적인 접근 방식을 취합니다. 이처럼 소규모 팀 간의 협력 덕분에 짧은 기간 안에 놀라운 성과를 낼 수 있었습니다.
캐시 추: 연구팀과 애플리케이션팀 간의 경계가 엄격하지 않습니다. 애플리케이션 엔지니어는 모델 학습에 참여하고, 연구원 또한 모델 배포에 참여합니다 . 이러한 부서 간 협력 덕분에 프로젝트에 활력이 넘치고 팀 분위기도 매우 좋습니다. 풀포드와 저는 오랜 친구 사이인데, 이러한 암묵적인 이해는 팀워크를 더욱 강화합니다.
Sun Zhiqing: 작은 팀으로도 큰 성과를 낼 수 있습니다. 이 프로젝트는 몇 달 만에 완료되었으며, 연구팀과 애플리케이션 팀은 처음부터 제품 기능을 정의하고 사용자 중심적인 기능을 구현하기 위해 협력했습니다. ChatGPT Agent가 아직 모든 목표를 완전히 달성하지는 못했지만, 이 프레임 덕분에 빠르게 반복 작업을 진행할 수 있었습니다.
진행자: 훈련 중 가장 큰 어려움은 무엇인가요?
Sun Zhiqing: 훈련의 안정성이 매우 큰 과제입니다. Deep Research는 텍스트 브라우징과 Python만 사용하는 반면, ChatGPT Agent는 GUI 브라우저, 터미널, 이미지 생성 도구, API 호출 등 여러 새로운 도구를 동시에 처리해야 하며, 이 모든 도구는 동일한 가상 머신 환경에서 실행됩니다. 네트워크에 동시에 접속하려면 수천 대의 가상 머신을 실행해야 하며, 웹사이트 다운타임, API 제한, 네트워크 용량 부족 등의 문제가 자주 발생합니다 .
예를 들어, 일부 웹사이트는 트래픽 과부하로 인해 일시적으로 사용할 수 없거나, 속도 제한으로 인해 API 호출이 실패할 수 있습니다. 이러한 경우, ChatGPT 에이전트가 이러한 비정상 상황을 처리할 수 있도록 학습 과정에 견고성 메커니즘을 추가해야 합니다. 이러한 어려움에도 불구하고, 가상 머신 환경을 최적화하고 학습 알고리즘을 개선하여 모델을 성공적으로 학습시켰으며, 다양한 작업에서 우수한 성능을 발휘하도록 했습니다.
Fulford: 앞으로 ChatGPT Agent의 다중 라운드 대화 기능, 개인화 및 메모리 기능을 더욱 강화할 계획입니다. 현재는 모든 작업이 사용자가 시작하지만, ChatGPT Agent가 사용자 요구를 자율적으로 파악하고 능동적으로 작업을 수행할 수 있을 것으로 예상합니다. 예를 들어, 사용자 과거 행동을 기반으로 요구를 예측하고, 보고서를 자동으로 생성하거나, 활동을 계획할 수 있습니다.
또한 사용자 경험을 향상시키기 위해 더욱 직관적인 비채팅 상호작용, 음성 명령, 그래픽 인터페이스 등 새로운 사용자 인터페이스와 상호작용 모드를 모색하고 있습니다. 또한, ChatGPT 에이전트의 컨텍스트 관리를 최적화하여 장기 작업 시 작업 일관성을 유지하는 동시에 컴퓨팅 리소스 의존도를 낮출 계획입니다.
캐시 추: 코딩 관점에서 볼 때, ChatGPT Agent는 코드 검색과 소규모 코드 편집에 매우 효과적이라고 생각합니다. 문서를 정확하게 읽고 환각 현상을 줄여주기 때문입니다. 예를 들어, API를 통해 GitHub에 접속하고, 특정 코드 저장소를 검색하고, 관련 코드 조각을 클레임. 저는 o3와 같은 대화형 코딩 작업에 ChatGPT Agent를 사용하는 반면, Codex는 잘 정의된 문제를 해결하는 데 더 적합합니다. Deep Research 사용자들이 발견한 코드 검색 기능과 같은 새로운 사용 사례도 더 많이 발견할 수 있을 것입니다.
앞으로 ChatGPT Agent가 더욱 복잡한 코드 디버깅을 지원하거나 완전한 애플리케이션을 자동으로 생성하는 등 프로그래밍 작업에서 더욱 개선되기를 바랍니다. 또한, ChatGPT Agent가 사용자 의도를 더 잘 이해하도록 하는 방법, 즉 자세한 설명 없이도 사용자가 코드 편집에서 원하는 기능을 자동으로 추론하는 방법을 연구하고 있습니다.
6. 일반 초지능 구축
진행자: 재무 분석 에이전트나 이벤트 기획 에이전트와 같은 전문화된 하위 에이전트를 개발할 건가요, 아니면 단일 슈퍼 에이전트의 비전을 고수할 건가요?
풀포드: 우리는 일반적인 초지능을 구축하는 것을 선호합니다. 만약 요원이 전능한 참모총장처럼 필요에 따라 모든 도구를 유연하게 활용할 수 있다면, 간단하고 효율적인 해결책이 될 것입니다.
훈련 데이터는 서로 다른 작업 간에 긍정적인 전이가 있음을 보여줍니다. 예를 들어, 쇼핑 작업에서 학습한 시각적 상호작용 기술은 연구 작업의 웹 탐색에 적용될 수 있습니다. 따라서 단일 에이전트 모델은 확장성과 다양성 측면에서 더 큰 잠재력을 가지고 있습니다. ChatGPT 에이전트가 지속적인 최적화를 통해 간단한 쿼리부터 복잡한 워크플로까지 다양한 작업을 원활하게 처리하고, 사용자가 여러 개의 전용 모델에 의존하는 것을 줄일 수 있기를 기대합니다.
캐시 추: 맞춤형 모델은 제품 출시 시점에는 시장 가치를 가질 수 있지만, 교육 관점에서는 일반 상담원이 기술 이전 가능성을 더 잘 활용할 수 있습니다. 예를 들어, ChatGPT 에이전트는 전문 재무 분석 도구 없이도 쇼핑 작업에서 터미널을 사용하여 예산 계산을 수행할 수 있습니다. 또한, 강화 학습을 통해 일반화 기능을 더욱 향상시키는 방법도 모색하고 있습니다. 예를 들어, 새로운 작업에 직면했을 때 대량 추가 교육 데이터 없이도 빠르게 적응할 수 있도록 하는 것입니다. 앞으로 ChatGPT 에이전트는 사용자 피드백을 통해 학습하여 행동 패턴을 동적으로 조정함으로써 작업 완료 정확도를 더욱 향상시킬 수 있을 것입니다 .
Sun Zhiqing: 저희의 목표는 ChatGPT Agent가 사람이 컴퓨터에서 수행하는 거의 모든 작업을 처리하도록 하는 것입니다. 사용자는 '온라인으로 돈을 벌어보세요'라고 요청할 수도 있지만, 아직 완벽하게 실행되지는 않았습니다. 반복적인 배포를 통해 작업 완료의 품질과 정확성을 향상시킬 것입니다. 예를 들어, 복잡한 작업에서 ChatGPT Agent의 의사 결정 프로세스를 최적화하고, 오류 발생 가능성을 줄이며, 동적 환경에서의 적응력을 향상시킬 계획입니다. 또한, 사용자 피드백과 실제 사용 데이터를 통해 ChatGPT Agent의 성능을 지속적으로 개선하여 도메인 간 작업을 더욱 지능적이고 효율적으로 처리할 수 있도록 지원할 것입니다.
진행자: 미래를 내다보면서, ChatGPT Agent에 대한 비전은 무엇인가요?
Fulford: 저희는 ChatGPT Agent에 인간이 컴퓨터에서 수행할 수 있는 대부분의 작업을 처리하는 도구 세트를 제공합니다. 다양한 작업에서 모델의 성능을 향상시키고, 사용자 상호작용 경험을 최적화하며, 더욱 개인화된 메모리 기능이나 자율적인 작업 시작과 같은 새로운 상호작용 방식을 모색할 것입니다.
앞으로 ChatGPT Agent가 사용자 요구를 자율적으로 인식하고 대응할 수 있기를 기대합니다. 예를 들어, ChatGPT Agent는 사용자 일정을 기반으로 회의를 자동으로 계획하거나, 과거 선호도를 기반으로 맞춤형 솔루션을 추천할 수 있습니다.
케이시 추: 사용자 인터페이스와 경험을 개선하게 되어 매우 기쁩니다. 현재의 채팅 기반 상호작용은 시작일 뿐이며, 앞으로 제스처 기반이나 다중 모드 입력 인터페이스와 같은 더욱 혁신적인 상호작용 방식이 등장할 수 있습니다.
Deep Research 사용자들이 발견한 코드 검색 기능과 같은 ChatGPT Agent의 새로운 기능을 사용자들이 직접 경험해 보시기를 바랍니다. 예를 들어, ChatGPT Agent는 스프레드시트 및 데이터 분석 분야의 동료인 John Blackman의 노력 덕분에 데이터 과학 작업에서 인간의 한계를 뛰어넘었습니다. 앞으로 ChatGPT Agent의 데이터 처리 및 시각화 기능, 예를 들어 대화형 대시보드 자동 생성 기능을 더욱 개선할 계획입니다.
Sun Zhiqing: 1월에 Operator를 출시한 이후, 클릭 및 양식 작성 정확도가 크게 향상되었지만, 날짜 선택과 같은 작업에서는 아직 개선의 여지가 있습니다. ChatGPT Agent에는 사람이 컴퓨터에서 수행하는 대부분의 작업을 처리할 수 있는 일반적인 도구 세트가 포함되어 있습니다. 앞으로의 과제는 이 모델이 모든 작업에서 제대로 작동하도록 보장하고, 더욱 자연스러운 음성 상호작용이나 실시간 협업 도구와 같은 새로운 상호작용 패러다임을 개발하는 것입니다. 사용자들이 ChatGPT Agent를 통해 더욱 자연스러운 협업 관계를 형성하고 AI 에이전트의 새로운 시대를 열 수 있기를 기대합니다.
진행자: 공유해 주셔서 정말 감사합니다! 신제품 출시를 축하드리며, 앞으로도 멋진 성능을 계속 보여드릴 수 있기를 기대합니다!
본 기사는 위챗 공개 계정 "텐센트 테크놀로지" 에서 발췌하였으며, 우지가 번역하고, 헬렌이 편집하였으며, 36Kr에서 허가를 받아 게시하였습니다.




