歸藏(guizang.ai)의 인사이트

06-14

이 기사는 기계로 번역되었습니다

원문 표시

Anthropic의 이 기사는 볼 만한 가치가 있습니다. 복잡한 주제를 더 효율적으로 탐색하기 위해 여러 지능형 에이전트를 구축할 때 직면하는 엔지니어링 과제를 상세히 설명합니다. 여기에는 에이전트 조정, 평가 및 신뢰성이 포함됩니다. 이 주요 내용을 요약해 보겠습니다.

Anthropic

@AnthropicAI

06-14

New on the Anthropic Engineering blog: how we built Claude’s research capabilities using multiple agents working in parallel. We share what worked, what didn't, and the engineering challenges along the way. https://anthropic.com/engineering/built-multi-agent-research-system…

다중 에이전트 시스템은 다음을 통해 성능을 향상시킬 수 있습니다. 병렬 작업 및 정보 압축: 하위 에이전트는 자체 컨텍스트 윈도우를 사용하여 병렬로 실행되어 문제의 다양한 측면을 동시에 탐색한 후 가장 중요한 정보를 주 연구 에이전트로 추출할 수 있습니다. 관심사 분리: 각 하위 에이전트는 다양한 도구, 프롬프트, 탐색 경로 등 관심사를 분리하여 경로 종속성을 줄이고 철저하고 독립적인 조사를 가능하게 합니다. 성능 확장: 지능이 특정 임계값에 도달하면 다중 에이전트 시스템은 인간 사회가 집단 지능과 협력을 통해 기하급수적인 성장을 달성한 것처럼 성능을 확장하는 중요한 방법이 됩니다. 탁월한 너비 우선 쿼리 기능: 내부 평가 결과 다중 에이전트 연구 시스템은 여러 독립적인 방향을 동시에 탐색하는 너비 우선 쿼리에 탁월한 것으로 나타났습니다. 예를 들어, 정보 기술 기업 S&P 500의 모든 이사회 구성원을 파악하라는 요청을 받았을 때, 다중 에이전트 시스템은 이 작업을 하위 에이전트의 작업으로 나누어 정답을 찾았지만, 단일 에이전트 시스템은 느린 순차 검색을 통해 정답을 찾지 못했습니다. 효율적인 토큰 사용: 다중 에이전트 시스템은 문제를 해결하는 데 충분한 토큰을 사용할 수 있습니다. 분석 결과, 토큰 사용만으로도 BrowseComp 평가 성능 차이의 80%를 설명할 수 있으며, 도구 호출 횟수와 모델 선택 또한 두 가지 추가 설명 요인입니다.5 다중 에이전트 아키텍처는 독립적인 컨텍스트 창을 가진 에이전트에 작업을 분배하여 토큰 사용을 효과적으로 확장하고 추론 병렬화 기능을 향상시킵니다.

에이전트 시스템에도 단점이 있습니다. 그들은 종종 대량 토큰을 빠르게 소모합니다. Anthropic의 데이터에 따르면, 에이전트는 일반적으로 채팅 상호작용보다 약 4배 더 많은 토큰을 사용하고, 다중 에이전트 시스템은 채팅보다 약 15배 더 많은 토큰을 사용합니다. 따라서 다중 에이전트 시스템은 경제적으로 실행 가능하기 위해서는 증가된 성과 비용을 지불할 만큼 충분히 높은 작업 가치가 필요합니다. 더욱이 모든 에이전트가 동일한 컨텍스트를 공유해야 하거나 많은 에이전트 간의 종속성을 수반하는 일부 도메인은 현재 대부분의 인코딩 작업과 같이 다중 에이전트 시스템에 적합하지 않습니다.

아키텍처 개요 Anthropic의 연구 시스템은 코디네이터-워커(orchestrator-worker) 모드의 다중 에이전트 아키텍처를 채택합니다. 주 에이전트 하나가 전체 프로세스를 조정하면서 동시에 병렬 작업을 위해 전문 하위 에이전트에게 작업을 위임합니다. 작업 업 흐름은 다음과 같습니다: 1. 사용자가쿼리를 제출한 후주전트(LeadResearcher)는 쿼리를 분석하고, 전략을 수립하며, 다양한 측면을 동시에 탐색할 하위 에이전트를 생성합니다. 2. LeadResearcher는 먼저 자신의 방법을 고려하고, 컨텍스트 창이 200,000 큰을 초 과하여 잘릴 경우를 대 모계획을 저장합니다. 3. 그런 음다음, 전문 하위 에이전트(Subagents)를 생성하고 구체적인 작업을 할당합니다. 4. 각 하위 에이전트는 독립적으로 웹 검색을 수행하고, ,적 사고aved 도구 결용과가 발견 를LeadResearcher에게환. 5. LeadResearcher는 이러한 결과를 종합하고 추가 연구가 필요한지 결정합니다. 필요한 한 경우, 추가 추적인 하위 위를 생성하거나 전략을 조정할 수 있습니다. 6. 충분한 정보를 수집하면 시스템은 연구 루프를 종료하고 모든 발견 결과를 (인용 에이전트)에 전달하며, 이 에이전트는 문서와 보고 를 처리하여 구 구체적인 인용치 위치를 식별하고 모든술이 해당 출처에확하게 귀속되도록 합니. 다7. 연 결용 포함)은 이후자 사에환다존 검색 화 강생성)을 사는식과 달리, Anthropic의 아키텍처는 다단계 검색을 사용하여 관련 정보를 동적으로 찾고, 새로발운 발견에 적응하며, 결과를 분석하여 고품질의 답변을 형성합니다.

프롬프트 엔지니어링 및 평가 다중 에이전트 시스템은 조정 복잡성의 급격한 증가를 포함하여 주요 측면에서 단일 에이전트 시스템과 다릅니다. 프롬프트 엔지니어링은 Anthropic이 에이전트 행동을 개선하는 주요 수단입니다. 학습한 프롬프트 원칙은 다음과 같습니다. 1. 에이전트처럼 생각하기: 프롬프트의 효과를 이해하고 에이전트가 시뮬레이션을 통해 단계별로 작업하는 모습을 관찰하여 실패 모드를 파악합니다. 2. 코디네이터에게 작업 위임 방법 교육: 마스터 에이전트는 쿼리를 하위 작업으로 나누고 하위 에이전트에게 설명해야 합니다. 각 하위 에이전트는 명확한 목표, 출력 형식, 도구 및 소스 사용 지침, 그리고 작업 중복이나 정보 누락을 방지하기 위한 명확한 작업 경계를 필요로 합니다. 3. 쿼리 복잡성에 따라 작업량 조정: 마스터 에이전트가 리소스를 효율적으로 할당하고 간단한 쿼리에 대한 과도한 투자를 방지하기 위해 프롬프트에 스케일링 규칙을 포함합니다.10 간단한 쿼리에는 에이전트 1명과 도구 호출 3~10개만 필요할 수 있지만, 복잡한 연구에는 하위 에이전트 10개 이상이 필요할 수 있습니다. 4. 도구 설계 및 선택이 중요합니다. 에이전트-도구 인터페이스는 인간-기계 인터페이스만큼 중요합니다. 각 도구가 명확한 목적과 명확한 설명을 갖도록 하고, 에이전트에게 명확한 휴리스틱(예: 범용 도구보다 특수 도구 선호)을 제공해야 합니다. 5. 에이전트가 스스로 개선하도록 하세요. 클로드 4 모델은 훌륭한 프롬프트 엔지니어 역할을 할 수 있습니다. 프롬프트와 실패 모드가 주어지면 실패 원인을 진단하고 개선 사항을 제안할 수 있습니다. Anthropic은 결함이 있는 도구를 테스트하고 실패를 방지하기 위해 설명을 다시 작성할 수 있는 도구 테스트 에이전트를 개발하기도 했습니다. 6. 먼저 광범위하게 탐색하고, 그다음 심층적으로 탐색하세요. 검색 전략은 인간 전문가의 연구를 모방해야 합니다. 먼저 일반적인 상황을 탐색한 다음 세부 사항으로 들어가야 합니다. 에이전트가 이용 가능한 정보를 평가하도록 유도하여 짧고 광범위한 질의로 시작한 다음, 점차 초점을 좁혀야 합니다. 7. 사고 과정 안내: 확장된 사고 모드는 제어 가능한 스크래치패드 역할을 하여 Claude가 계획, 도구 적합성 평가, 쿼리 복잡성 및 하위 에이전트 수 결정, 각 하위 에이전트의 역할 정의를 위한 추가 토큰을 출력하도록 합니다. 8. 병렬 도구 호출로 속도와 성능 향상: 메인 에이전트가 하위 에이전트를 병렬로 실행하고 하위 에이전트가 여러 도구를 병렬로 사용함으로써 복잡한 쿼리에 대한 조사 시간이 최대 90% 단축됩니다.

에이전트의 효율적 평가 다중 에이전트 시스템을 평가하는 것은 고유한 과제를 제시합니다. 시작점이 같더라도 에이전트가 목표에 도달하기 위해 완전히 다른 효율적인 경로를 취할 수 있기 때문입니다. 평가 방법은 유연해야 하며, 에이전트가 올바른 결과를 달성했는지, 그리고 평가 과정이 합리적인지 여부를 모두 판단해야 합니다. 주요 평가 방법은 다음과 같습니다. 소규모 샘플 평가를 즉시 시작하세요. 개발 초기 단계에서는 효과 크기가 큰 경우가 많기 때문에 적은 수의 테스트 사례만으로도 큰 영향이 나타날 수 있습니다. 심사자로서의 LLM 평가: 연구 결과는 일반적으로 단일 정답이 없는 자유형 텍스트이므로 LLM은 채점 심사에 적합합니다.14 Anthropic은 사실 정확성, 인용 정확성, 완전성, 출처 품질, 도구 효율성과 같은 기준에 따라 LLM 심사자를 사용하여 결과를 평가합니다. 인간의 평가는 자동화가 놓친 문제점을 발견합니다. 인간 테스터는 자동화된 평가가 놓칠 수 있는 특이한 질의에 대한 환각적인 답변, 시스템 결함 또는 미묘한 소스 선택 편향과 같은 예외적인 사례를 발견할 수 있습니다. 다중 에이전트 시스템은 새로운 행동을 보이는데, 이는 해당 행동이 특정 프로그래밍을 통해 생성되는 것이 아니라는 것을 의미합니다. 상호작용 패턴을 이해하는 것이 중요하며, 가장 좋은 힌트는 엄격한 지침이 아니라 업무 분담, 문제 해결 방법, 노력 예산을 정의하는 협업 프레임 입니다.

프로덕션 안정성 및 엔지니어링 과제 에이전트 시스템을 프로토타입에서 안정적인 프로덕션 시스템으로 전환하는 것은 에이전트 시스템의 오류가 복합적으로 발생하기 때문에 상당한 엔지니어링 과제를 안겨줍니다. 주요 과제는 다음과 같습니다. 에이전트는 상태를 저장하며 오류가 누적됩니다. 에이전트는 장시간 실행될 수 있으며 여러 도구 호출에 걸쳐 상태를 유지할 수 있습니다. 사소한 시스템 장애도 에이전트에 치명적인 영향을 미칠 수 있습니다. Anthropic은 오류 발생 지점에서 복구하고 모델의 인텔리전스를 활용하여 문제를 원활하게 처리할 수 있는 시스템을 구축했습니다. 예를 들어 도구 장애 발생 시 에이전트에 알리고 에이전트가 적응하도록 하는 것입니다. 디버깅에는 새로운 접근 방식이 필요합니다. 에이전트는 동적으로 결정을 내리고 동일한 프롬프트에 대해서도 실행 간에 비결정적이므로 디버깅이 더욱 어렵습니다. Anthropic은 전체 프로덕션 추적 기능을 추가하여 에이전트 장애 원인을 진단하고 문제를 체계적으로 해결할 수 있었습니다. 배포에는 신중한 조정이 필요합니다. 에이전트 시스템은 거의 연속적으로 실행되는 프롬프트, 도구 및 실행 로직으로 구성된 고도로 상태 저장적인 네트워크입니다. Anthropic은 레인보우 배포를 사용하여 기존 버전에서 새 버전으로 트래픽을 점진적으로 이동하면서 동시에 두 버전을 동시에 실행함으로써 실행 중인 에이전트의 중단을 방지합니다. 동기 실행으로 인한 병목 현상: 현재 Anthropic의 마스터 에이전트는 하위 에이전트를 동기적으로 실행하며, 각 하위 에이전트 그룹이 완료될 때까지 기다린 후 작업을 진행합니다. 이는 조정을 간소화하지만, 마스터 에이전트가 하위 에이전트를 안내하지 못하고 전체 시스템이 차단되는 등 에이전트 간 정보 흐름에 병목 현상을 발생시킵니다. 비동기 실행은 병렬 처리를 강화하지만, 결과 조정, 상태 일관성 및 오류 전파에 어려움을 야기합니다.

Twitter에서

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트