- ChatGPT 에이전트는 딥 리서치와 오퍼레이터가 통합되어, 텍스트 이해와 시각적 상호작용 능력을 융합하여 웹 브라우징부터 코드 실행까지 다양한 유형의 작업을 수행할 수 있으며, 다중 모달 협업 처리 능력을 보여줍니다.
- 그 핵심 훈련 방법은 강화 학습으로, 작업 보상 메커니즘을 통해 모델이 도구 사용 전략을 자율적으로 학습하여 "사전 설정된 동작 프로그래밍"의 한계를 극복하고, 높은 데이터 효율성과 작업 일반화 능력을 갖추고 있습니다.
- ChatGPT 에이전트는 최대 1시간 동안 작업을 수행할 수 있으며, 다중 라운드 대화와 사용자 상호작용 조정을 지원하여 재무제표 모델 생성, 연구 보고서 작성, 상품 검색 등의 작업을 수행하고, AI와 인간 협업의 새로운 패러다임을 실현합니다.
- 개발 팀은 작고 효율적이며, 연구와 엔지니어링이 깊이 융합되어 사용자 시나리오를 중심으로 직무 간 협업과 신속한 반복을 수행하며, OpenAI의 엔지니어링 및 제품 통합의 전형적인 사례입니다.
- 안전성을 보장하기 위해 OpenAI는 레드팀 테스트, 실시간 행동 모니터링, 권한 확인 메커니즘 등 다층적 방어 조치를 배치하여 모델이 유해한 작업을 수행하거나 오용되는 것을 방지합니다.
- OpenAI는 컴퓨터에서 인간의 거의 모든 작업을 처리할 수 있는 범용 슈퍼 인텔리전스 에이전트를 만들고자 합니다.
7월 23일 소식에 따르면, 세쿼이아 캐피털은 최근 대화 세션을 개최하여 OpenAI ChatGPT 에이전트 팀 멤버들과 기술 혁신 및 미래 잠재력에 대해 심도 있게 논의했습니다. 대화는 세쿼이아 캐피털의 두 파트너 소냐 황(Sonya Huang)과 로렌 리더(Lauren Reeder)가 공동 진행했으며, ChatGPT 에이전트 출시 행사에 참여한 OpenAI 팀 멤버 이사 풀포드(Isa Fulford), 케이시 추(Casey Chu), 그리고 선지청(Edward Sun)이 참석했습니다.
[이하 생략, 동일한 방식으로 번역됨]케시 추: 저는 개인적으로 이를 사용하여 Google Docs의 데이터를 처리하고 데이터를 보여주는 슬라이드를 생성합니다. 또 다른 흥미로운 사례는 고대 DNA 분야의 새로운 발전을 연구하는 데 사용한 것입니다. 해당 분야의 정보가 산재해 있고 종합 참고 자료가 부족하기 때문에, ChatGPT 에이전트는 인터넷에서 정보를 수집하여 보고서나 슬라이드로 종합할 수 있어 제 작업을 크게 간소화했습니다.
손지청: 저는 이를 온라인 쇼핑에 사용하며, 특히 시각적 탐색이 필요한 상황에서 유용합니다. 예를 들어 검색 필터를 통해 상품 이미지를 보거나 스타일을 선택하는 경우입니다. 여행 일정이나 활동 계획과 같은 일정 수립에도 매우 유용합니다. 제가 가장 좋아하는 쇼핑 작업은 의류 구매인데, 많은 웹사이트에서 검색 필터를 처리하거나 상품 외관을 보기 위해 시각적 브라우저가 필요하기 때문입니다.
진행자: 여러분이 이전에 보여주었던 멋진 사례가 있는데, 공유해 주시겠습니까?
풀포드: 물론입니다! 우리 동료들은 ChatGPT 에이전트에게 인터넷 정보를 기반으로 OpenAI의 가치를 추정하고, 재무 모델을 생성하도록 했습니다. 여기에는 스프레드시트, 요약 분석, 결과를 보여주는 슬라이드가 포함됩니다. 이 작업은 28분이 소요되었고, 장시간 작업을 처리할 수 있는 능력을 보여주었습니다. ChatGPT 에이전트의 예측은 상당히 대담했고, 슬라이드의 품질은 인상적이었습니다!
케시 추: 이 사례는 새로운 패러다임을 열었습니다. 사용자가 작업을 제시한 후 떠날 수 있고, ChatGPT 에이전트는 일정 시간 후 상세 보고서를 반환합니다. ChatGPT 에이전트가 더욱 자율적으로 변함에 따라 작업 시간이 더 길어질 수 있으며, 이는 좋은 예시입니다.
진행자: 28분은 이미 꽤 긴 시간입니다! 더 긴 시간의 작업이 있나요? ChatGPT 에이전트가 장시간 운영될 때 어떻게 원래 목적에서 벗어나지 않도록 보장하나요?
손지청: 최근 1시간 동안 진행된 작업을 실행했는데, 아마도 우리가 본 가장 긴 시간의 작업일 것입니다. 안정성을 보장하기 위해 ChatGPT 에이전트의 컨텍스트 길이를 확장하는 도구를 개발했고, 작업 진행 상황을 기록하여 복잡한 작업을 점진적으로 완료할 수 있게 했습니다.
또한, 사용자가 언제든지 ChatGPT 에이전트를 수정하고, 추가 지시를 제공하거나 상태 업데이트를 요청할 수 있는 유연한 인간-기계 상호작용 메커니즘을 설계했습니다. 예를 들어, 사용자는 현재 진행 상황을 요약하거나 "파란색 운동화만 원합니다"와 같은 추가 지시를 할 수 있습니다.
풀포드: 이러한 협업 모드는 사람들이 Slack을 통해 소통하는 방식을 모방합니다. ChatGPT 에이전트는 필요할 때 권한을 요청하거나 문제를 명확히 하며, 예를 들어 파괴적인 작업을 수행하거나 로그인이 필요할 때 사용자 동의를 구합니다.
우리의 인터페이스는 사용자가 ChatGPT 에이전트의 작업을 실시간으로 모니터링할 수 있으며, 심지어 작업 완료 후 가상 컴퓨터 환경을 인수할 수 있습니다. 예를 들어 계정에 로그인하거나 신용카드 정보를 입력할 수 있습니다. 이러한 "동료의 작업을 관찰하고 언제든 인수할 수 있는" 경험은 매우 직관적이며 사용자의 ChatGPT 에이전트에 대한 통제감을 강화합니다.
케시 추: 연구 및 응용 팀의 경계는 엄격하지 않습니다. 응용 엔지니어들이 모델 훈련에 참여하고, 연구원들도 모델 배포에 참여합니다. 이러한 부서 간 협업으로 프로젝트에 활력을 불어넣고 팀 분위기가 매우 좋습니다. 풀포드와 저는 오랜 친구이고, 이러한 호흡도 팀 협업을 촉진했습니다.
손지청: 작은 팀이 큰 일을 성취할 수 있습니다. 우리는 몇 달 만에 이 프로젝트를 완료했고, 연구 및 응용 팀은 처음부터 제품 기능을 공동으로 정의하여 사용자 요구 사항 중심으로 진행했습니다. ChatGPT 에이전트가 아직 모든 목표를 완전히 달성하지는 못했지만, 이러한 프레임워크를 통해 빠르게 반복할 수 있습니다.
진행자: 훈련 과정에서 가장 큰 도전은 무엇이었습니까?
손지청: 훈련의 안정성이 엄청난 도전이었습니다. Deep Research는 텍스트 브라우징과 Python만 다루었지만, ChatGPT 에이전트는 GUI 브라우저, 터미널, 이미지 생성 도구, API 호출 등 다양한 새로운 도구를 동시에 처리해야 합니다. 이 모든 것이 동일한 가상 머신 환경에서 실행됩니다. 우리는 수천 개의 가상 머신을 통해 네트워크에 접속해야 했고, 웹사이트 다운, API 제한, 네트워크 용량 부족 등의 문제를 자주 겪었습니다.
예를 들어, 일부 웹사이트는 트래픽 과부하로 일시적으로 사용할 수 없거나, API 호출이 속도 제한으로 실패할 수 있습니다. 이는 우리가 훈련 과정에 강건성 메커니즘을 추가하여 ChatGPT 에이전트가 이러한 예외 상황을 처리할 수 있도록 해야 함을 의미합니다. 이러한 도전에도 불구하고, 우리는 가상 머신 환경을 최적화하고 훈련 알고리즘을 개선하여 결국 다양한 작업에서 뛰어난 성능을 보이는 모델을 성공적으로 훈련했습니다.
(이하 생략, 전체 번역을 원하시면 추가로 요청해 주세요)




