Stanford 7B 에이전트는 GPT-4o를 전면적으로 능가하며, 추론 흐름은 HF의 최상위에 도달했습니다.

11-03

이 기사는 기계로 번역되었습니다

원문 표시

[서론] 기존의 지능형 에이전트 시스템은 안정성과 학습 기능의 균형을 맞추는 데 어려움을 겪고 있습니다. 스탠퍼드 대학교를 비롯한 연구진은 모듈 식 실시간 강화 학습을 통해 추론 과정에서 정책을 지속적으로 최적화하는 AgentFlow 프레임 제안했습니다. 이를 통해 소규모 모델이 여러 작업에서 GPT-4o보다 우수한 성능을 발휘할 수 있게 되어 AI 개발에 새로운 지평을 열었습니다.

AI 에이전트 개발은 현재 다음과 같은 딜레마에 직면해 있습니다.

한편, 추론, 계획, 도구 호출을 동시에 수행하도록 "다기능" 대형 모델을 훈련하는 것은 통합적인 이점이 있지만, 긴 체인 추론에서는 훈련이 불안정하고 확장성이 제한되는 경우가 많습니다.

반면, 프롬프트 기반 에이전트 시스템은 유연하지만, 학습하고 자체 최적화하는 능력이 부족하며, 상호작용을 통해 지속적으로 발전할 수 없습니다.

이런 병목현상을 어떻게 극복할 수 있을까?

스탠포드 대학, 텍사스 A&M 대학, UC 샌디에이고, 람다의 연구팀은 새로운 답을 제시했습니다. 지능형 에이전트 시스템이 추론 "흐름" 내에서 온라인 강화 학습을 수행하여 지속적인 자체 개선과 역량 진화를 달성하는 것입니다 .

그들은 AgentFlow 프레임 4개의 전문 에이전트가 함께 작동하는 모듈 아키텍처를 채택하고 특별히 설계된 Flow-GRPO 알고리즘을 탑재하여 시스템이 실제 대화형 환경에서 의사 결정 전략을 지속적으로 최적화할 수 있다고 제안했습니다.

실험 결과에 따르면 매개변수가 70억 개에 불과한 AgentFlow가 검색, 수학, 과학 등 다양한 작업에서 GPT-4o(매개변수 약 2000억 개)와 Llama-3.1-405B보다 우수한 성능을 보였습니다.

팀 리더는 트위터에 자신의 작업 내용을 공유했고, 이는 상당한 주목을 받았습니다.

이 작품은 현재 HuggingFace Paper의 일간 차트에서 2위에 올랐으며, 이번 주 가장 인기 있는 Huggingface 프로젝트입니다.

긴 체인 추론에서의 신용 할당 문제

지능형 에이전트 시스템을 훈련하는 데 있어 핵심 과제는 다중 턴 크레딧 할당 문제입니다. 장기적이고 보상이 부족한 환경에서 각 결정이 최종 결과에 미치는 기여도를 정확하게 결정하는 방법은 무엇일까요?

기존의 단일 모델 접근 방식은 모든 기능을 단일 LLM으로 통합하고, 생각, 도구 호출, 응답의 출력을 통합하기 위해 특수 태그(예: <tool_call>)를 사용합니다.

이러한 접근 방식은 짧은 체인 작업에 효과적이지만 복잡한 시나리오에서는 문제가 발생하기 쉽습니다. 추론 체인이 지나치게 길면 학습이 불안정해지고, 도구 선택에서 발생한 오류를 추적하기 어렵고, 환경 피드백에 따라 전략을 동적으로 조정할 수 없습니다.

기존의 지능형 에이전트 시스템(예: LangGraph, OWL, Pydantic, AutoGen)은 모듈 달성했지만 대부분은 고정된 프롬프트 프로젝트에 의존하고 경험을 통해 학습할 수 있는 메커니즘이 부족합니다.

AgentFlow는 "스트림" 내에서 학습하면서 여러 모듈 간의 실시간 상호작용을 가능하게 합니다.

AgentFlow의 디자인 철학은 복잡한 추론 작업을 전문화된 에이전트 모듈 로 분해하는 동시에 핵심적인 의사 결정 모듈 상호 작용을 통해 지속적으로 학습할 수 있도록 하는 것 입니다.

4개 모듈 협업 아키텍처

이 시스템은 메모리 기능을 갖춘 4개의 전문화된 지능형 에이전트로 구성됩니다.

작업 요구사항 분석, 실행 전략 수립, 그리고 가장 적합한 도구 선택. 이는 시스템의 핵심 의사 결정 모듈 이며, 교육이 필요한 유일한 부분입니다.
: 도구의 API를 실제로 호출하고 도구에서 반환된 결과를 통합하는 역할을 담당합니다.
시스템의 누적된 과거 메모리를 기반으로 중간 결과가 작업 목표와 제약 조건을 충족하는지 평가합니다.
모든 정보와 검증 피드백을 통합하여 최종 답변이나 다음 조치에 대한 제안을 생성합니다.

핵심적인 혁신은 플래너가 정적이지 않고 정책 강화 학습을 통한 추론 흐름 중에 실시간으로 최적화된다는 사실에 있습니다.

각 라운드의 상호작용 후, 시스템은 최종 결과의 성공 또는 실패에 따라 계획자의 의사 결정 전략을 업데이트하고, 최적화된 결과를 시스템의 메모리에 통합하여 폐쇄 루프 적응 학습 프로세스를 형성합니다.

Flow-GRPO 알고리즘은 신용 할당 문제를 해결합니다.

연구팀은 다중 라운드 추론 시나리오에 맞춰 특별히 설계된 Flow-GRPO(Flow-based Group Relative Policy Optimization) 알고리즘을 제안했습니다. 핵심 아이디어는 각 행동에 궤적의 최종 보상 신호(성공/실패)를 브로드캐스트하여 복잡한 다중 라운드 강화 학습 문제를 일련의 단일 라운드 정책 업데이트로 변환하는 것입니다.

구체적인 단계는 다음과 같습니다.

1. 완전한 추론 경로(초기 작업부터 최종 결과까지)를 수집합니다.

2. 최종 결과에 따라 결과 보상을 계산합니다.

3. 궤적에 있는 각 계획된 작업에 이 보상을 할당합니다.

4. 상대적 이점 함수를 사용하여 각 행동의 이점을 계산하고 정책 그래디언트를 업데이트합니다.

이 방법은 훈련 안정성을 유지하면서 보상 희소성 문제를 효과적으로 완화합니다.

온라인 학습을 통해 시스템은 잘못된 도구 호출을 신속하게 수정하고, 더 나은 하위 작업 분해 방법을 탐색하고, 환경 피드백을 기반으로 추론 깊이를 동적으로 조정할 수 있습니다.

실험 결과: 소형 모델의 복귀

연구팀은 지식 검색, 에이전트 작업, 수학적 추론, 과학적 추론이라는 4가지 주요 범주를 포괄하는 10개의 교차 도메인 벤치마크에 대한 체계적인 평가를 수행했습니다.

성능 비교

Qwen-2.5-7B-Instruct를 기본 모델로 사용할 경우 AgentFlow는 모든 범주에서 상당히 우수한 성능을 보입니다.

지식 검색: 기준선에 비해 14.9% 개선됨.

에이전트 추론: 14.0% 향상

수학적 추론: 14.5% 향상

과학적 추론: 4.1% 향상

더욱 놀라운 것은 규모 간 비교 결과입니다.

AgentFlow 7B는 검색 작업에서 GPT-4o(약 200B)보다 8.2% 더 우수한 성능을 보입니다.

에이전트 기반 작업에서 Llama-3.1-405B보다 15.8% 더 우수한 성능을 보입니다.

3B 모델의 AgentFlow는 여러 작업에서 기준 405B 모델보다 우수한 성능을 보입니다.

절제 실험의 주요 결과

1. 온라인 학습 vs. 오프라인 학습

비교 실험 결과, 기존 SFT 방식을 사용하여 플래너를 훈련했을 때 실제로 평균 19%의 성능 저하가 발생하는 것으로 나타났습니다. 이는 실제 상호작용 환경에서의 온라인 학습이 효율적인 추론을 달성하는 데 필수적임을 보여줍니다.

2. 새로운 전략을 독립적으로 탐색합니다.

작업의 특성에 따라 적절한 도구 조합을 선택합니다 . 동시에 훈련된 시스템은 위키피디아 검색과 웹 검색을 결합하여 툴체인을 통해 더 심층적인 정보 마이닝을 얻는 등 새로운 도구 사용 패턴을 자연스럽게 탐색합니다. 반면 이러한 패턴은 훈련되지 않은 추론 흐름에서는 거의 나타나지 않습니다.

3. 동적 추론 깊이

멀티홉 검색과 같은 집약적 추론 작업에서 훈련된 AgentFlow는 "지능적 게으름"을 보입니다. 즉, 간단한 작업에 대해서는 추론 단계를 줄이고 복잡한 작업에 대해서만 추론 심도를 높입니다.

최대 단계 수가 증가함에 따라 성능은 꾸준히 상승, 평균 단계 수는 비례하여 증가하지 않습니다.

4. 모듈 협업의 가치

추론 스트림 자체는 성능을 향상시킬 수 있지만, 훈련되지 않은 시스템은 루프 오류나 끊김 현상이 발생하기 쉽습니다.

강화 학습으로 학습한 후, 시스템은 도구 호출 정확도, 하위 작업 계획 정교화, 그리고 전역 성능에서 상당한 향상을 보였습니다. 저자들은 실험에서 얻은 흥미로운 결과를 생생하게 보여주는 사례를 제시했습니다.

이 예에서 Flow-GRPO 학습 전 추론 시스템은 여기에 표시된 것과 같은 Python 변수 정의 오류를 만날 때마다 동일한 하위 대상과 도구 호출을 반복적으로 출력하는데, 이는 시간과 추론 효율성을 크게 낭비합니다.

Flow-GRPO 온라인 업데이트 이후, 액션 플래너는 이전 오류를 기반으로 더욱 정확한 하위 목표와 작업 설명을 통해 후속 단계를 안내하도록 자동으로 조정할 수 있었고, 이러한 조정을 통해 한 단계에서는 성공했습니다.

이 사례는 지능형 에이전트 시스템 내에서 실제 추론에 있어서 강화 학습의 엄청난 잠재력을 보여줍니다.

기술적 중요성과 미래 전망

AgentFlow의 가치는 다음과 같습니다.

1. 새로운 학습 패러다임을 제시하여 에이전트 시스템이 온라인 강화 학습을 통해 대규모 모델과 유사한 학습 역량을 습득할 수 있으며 특정 작업에 더 효율적임을 보여줍니다.

2. "작지만 훌륭함"의 실현 가능성 검증: 합리적인 시스템 설계를 통해 작은 모델이 모듈 협업과 지속적인 학습을 통해 복잡한 추론 작업에서 대규모 일반 모델보다 우수한 성능을 발휘할 수 있습니다.

3. 확장 가능한 AI에 대한 아이디어 제공: 모듈식 아키텍처를 통해 시스템은 유연하게 새로운 도구를 추가하고 모듈 기능을 조정할 수 있습니다.

AgentFlow는 Agentic AI의 개발이 모델 크기를 늘리는 것에만 전적으로 의존할 필요는 없다는 것을 보여줍니다. 효율적인 학습 방법과 결합된 혁신적인 시스템 아키텍처가 탐색해 볼 만한 가치가 있는 방향일 수 있습니다.

참고문헌:

https://arxiv.org/abs/2510.05592

본 기사는 LRST가 편집하고 36Kr의 허가를 받아 WeChat 공식 계정 "New Intelligence" 에서 발췌한 것입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트