스케일링법을 갱신할까요? 세계 모델 GPT-4o를 사용하면 지능형 에이전트가 OSU Chinese의 작업인 슈퍼 계획을 수행할 수 있습니다.

avatar
36氪
하루 전
이 기사는 기계로 번역되었습니다
원문 표시

스케일링 법칙이 벽에 부딪힙니다. 언어 에이전트의 추론을 확장할 때 계산하기가 너무 어렵습니다! 상황을 타파하는 방법은 LLM을 세계 모델로 사용하는 것입니까? OSU 중국 팀은 복잡한 환경에서 계획을 지원하기 위한 세계 모델로 GPT-4o를 사용하는 것이 큰 잠재력을 가지고 있음을 발견했습니다.

스케일링 법칙은 다시 살아남을 수 있을까?

언어 에이전트의 상위 수준 계획을 통해 추론 시간 계산을 확장하는 방법은 무엇입니까?

대답은 LLM을 세계 모델로 사용하는 것입니다.

즉, GPT-4o를 사용하여 웹 사이트의 작업 결과를 예측하면 강력한 성능을 제공하는 동시에 보안과 효율성도 향상시킬 수 있습니다.

최근 오하이오 주립대학교와 기타 기관의 연구자들은 LLM을 월드 모델로 사용하여 웹 사이트의 상호 작용 결과를 예측할 수 있는 새로운 WebDreamer 프레임 제안했습니다.

논문 주소: https://arxiv.org/abs/2411.06559

며칠 전 Microsoft Ignite 컨퍼런스에서 Nadella는 AI 개발이 아직 한계점에 도달하지 않았으며 추론에서 스케일링 법칙의 부상을 목격하고 있다고 말했습니다.

그렇습니다. 이 새로운 연구는 그러한 방향으로 나아가는 한 단계입니다.

01 언어지능과 수학적 추론의 가장 큰 차이점은 상호작용이다

제1저자 Yu Gu는 o1 출시 이후 이 문제가 그를 괴롭혔다고 말했습니다.

언어 에이전트의 추론 시간 계산을 확장하는 것이 왜 그렇게 어려운가요? 언어 에이전트의 특별한 점은 무엇입니까?

이를 위해 그는 문제를 분해했습니다.

수학적 추론과 같은 작업과 달리 언어 에이전트의 주요 차이점은 상호 작용입니다. 그들이 취하는 모든 행동은 다음 결정을 알리는 환경에 대한 새로운 관찰을 촉발합니다.

상호 작용으로 인해 검색 공간 탐색이 복잡해집니다.

1. 환경과의 교류는 비용이 많이 든다

2. 많은 작업은 상태를 변경하고 되돌릴 수 없습니다(예: 쇼핑 웹사이트에서 구매 확인). 이로 인해 실제 웹사이트에서 트리 검색의 역추적을 실행할 수 없습니다.

그렇다면 LLM을 월드 모델로 사용하여 웹 사이트에서의 상호 작용 결과를 예측할 수 있습니까? (예: "이 버튼을 클릭하면 어떻게 될까요?")

이러한 방식으로 효율적인 검색 공간 탐색이 가능하고 실제 상호 작용의 오버헤드가 줄어들 수 있습니다.

대답은 그렇습니다!

Yu Gu et al.은 GPT-4o가 웹 사이트에 대한 광범위한 지식을 효과적으로 인코딩하고 모델 기반 계획 프레임 WebDreamer의 기초 역할을 한다는 것을 발견했습니다.

WebDreamer는 LLM으로 시뮬레이션된 세계 모델을 갖추고 있기 때문에 우수한 효과성과 효율성을 보여줍니다.

첫째, VisualWebArena 및 Mind2Web-live의 반응 기준보다 훨씬 뛰어난 강력한 성능을 제공합니다.

효율성 측면에서 보면 트리 검색에 비해 상호 작용 횟수가 절반만 필요합니다.

또한 LLM 기반 세계 모델 시뮬레이션으로 인해 두 가지 추가 이점이 있습니다.

하나는 실제 상호 작용을 최소화하여 보안 리스크 줄이기 때문에 더 나은 보안입니다.

또 하나는 다용도 통합입니다. 다양한 에이전트의 플러그인으로 원활하게 작동하고 트리 검색 에이전트를 보완합니다.

02 WebDreamer의 핵심은 “꿈꾸는 것”입니다

에이전트도 꿈을 꿀 필요가 있나요?

수학적 추론과 같은 작업과 달리 언어 에이전트의 주요 차이점은 상호 작용입니다. 언어 에이전트가 취하는 모든 작업은 환경에 새로운 변화를 촉발하고 결과적으로 추가 의사 결정을 위한 과제를 생성합니다.

지속적인 상호 작용은 환경과의 상호 작용에 많은 비용이 들기 때문에 솔루션 공간 검색을 극도로 어렵게 만듭니다. 많은 상태 변경 작업은 되돌릴 수 없으며 에이전트를 사용하여 웹 사이트와 실제로 상호 작용하는 것은 정보 유출 및 개인 재산 손실과 같은 특정 보안 리스크 초래합니다. 예상치 못한 거래.

실제 상호 작용 비용을 절감하고 에이전트의 안전성과 신뢰성을 보장하면서 솔루션 공간을 효과적으로 탐색하는 방법은 해결해야 할 시급한 문제가 되었습니다.

간단히 말하면 WebDreamer의 핵심은 "꿈꾸는 것"이라는 개념입니다. 에이전트는 어떤 행동을 하기 전에 LLM을 사용하여 가능한 각 단계의 결과를 상상하고 예측하며 상태가 어떻게 변할지 자연어로 설명합니다.

그런 다음 이러한 시뮬레이션 결과는 목표 작업 달성에 얼마나 가까운지 평가됩니다. 마지막으로 목표 임무를 달성할 가능성이 가장 높은 시뮬레이션 작업을 수행합니다. 이 과정은 LLM이 목표가 달성되었다고 결정할 때까지 반복됩니다.

그림 1은 검색 문제의 형태로 웹 페이지 에이전트가 표현하는 다양한 전략의 개략도입니다. 여기서 각 노드는 웹 페이지를 나타냅니다.

명확성을 위해 1단계 시뮬레이션 결과만 설명합니다. 희미한 노드는 아직 보지 않은 웹 페이지를 나타내고, 녹색 체크 표시와 빨간색 십자가는 각각 성공한 결과와 실패한 결과를 나타냅니다.

그림 1(a) 반응: 에이전트는 항상 사전 계획 없이 로컬 최적을 선택하기 때문에 종종 차선의 결과로 이어집니다.

그림 1(b) 실제 상호작용과 결합된 트리 검색: 에이전트는 활성 웹사이트 탐색을 통해 여러 경로를 탐색하고 역추적을 허용합니다(점선 화살표로 표시). 그러나 실제 웹사이트에서는 되돌릴 수 없는 작업이 편재되어 있기 때문에 역추적이 불가능한 경우가 많습니다.

그림 1(c) 모델 기반 계획: 실제 실행 전에 에이전트는 잠재적인 결과(노드 클라우드로 표시됨)를 시뮬레이션하여 최선의 조치를 결정하므로 효율성을 유지하면서 실제 웹사이트 상호 작용을 최소화합니다.

요약하자면, LLM 시뮬레이션 세계 모델의 지원을 통해 WebDreamer는 뛰어난 성능과 효율성은 물론 강력한 확장 기능도 입증했습니다.

성능: VisualWebArena 및 Mind2Web-live의 성능은 반응 기준 모델을 훨씬 초과합니다.

효율성: 트리 검색에 비해 상호 작용 수가 절반에 불과합니다.

보안: 실제 상호 작용을 줄여 보안 리스크 효과적으로 줄입니다.

통합: 여러 에이전트에 대한 플러그인으로 원활하게 작동하고 트리 검색 에이전트의 기능을 보완합니다.

03 준비

작업 설정

웹사이트에서 실시간 상호작용을 자동화하려는 목표를 위해 웹 에이전트는 크고 복잡한 검색 솔루션 공간에 직면합니다.

공식적으로 작업 지침 I이 포함된 각 작업은 부분적으로 관찰 가능한 마르코프 결정 프로세스(POMDP): (S, A, O, T, R, Ω)로 볼 수 있습니다.

그 중 S는 환경에서 가능한 모든 상태의 집합을 나타내고, A는 에이전트가 취할 수 있는 모든 가능한 행동을 나타내며, O는 환경에서 가능한 모든 관찰의 집합을 나타내며, T : S × A → S는 상태 전이 함수를 나타냅니다. , R은 작업 I이 완료되었는지 여부를 나타내는 이진 보상입니다. Ω: S → O는 상태를 관찰된 값에 투영할 수 있는 결정론적 함수입니다.

작업의 목표는 1의 보상을 얻기 위해 일련의 작업을 수행하는 것입니다.

실제 시나리오에서는 서버 측 변수, 동적으로 로드되는 콘텐츠, 숨겨진 UI 요소를 포함하고 네트워크 조건 및 브라우저 제한의 영향을 받는 네트워크 환경의 복잡성으로 인해 에이전트는 제한된 관점(예: ∈ O) 네트워크 환경을 인식합니다.

이 제한된 관찰 관점은 또한 클릭, 텍스트 입력, URL 점프와 같이 o에서 수행할 수 있는 대화형 작업을 포함하는 해당 작업 공간 A를 형성합니다.

표 1 Visual WebArena에 정의된 웹 탐색 작업 공간

시뮬레이션을 통한 계획

상태 전이 함수 "T"에 의해 제어되는 실제 상호 작용을 사용하여 트리 검색을 통해 최적의 작업 순서를 계획하는 것은 비용이 많이 들고 되돌릴 수 없는 리스크 있습니다. 모델 기반 계획은 환경의 계산적 표현을 사용하여 상호 작용의 결과를 시뮬레이션함으로써 이러한 문제를 해결합니다.

대표적인 접근 방식 중 하나는 미래 궤적을 반복적으로 시뮬레이션하여 작업을 선택하는 모델 예측 제어(MPC)입니다.

각 상태 s에 대해 MPC는 시뮬레이터 함수 sim(s, a)를 사용하여 제한된 예측 범위 H 내에서 가능한 각 작업 a ∈ A의 궤적을 시뮬레이션하고 점수 함수 점수(τ)를 사용하여 이를 평가합니다. 그런 다음 가장 유망한 궤적에 해당하는 작업을 수행합니다.

새로운 상태가 관찰될 때마다 이 프로세스가 반복되므로 에이전트는 비용이 많이 드는 실제 탐색을 피하면서 실제 결과를 기반으로 계획을 조정할 수 있습니다. 실제로 부분적인 관찰 가능성으로 인해 실제 상태에 접근할 수 없으므로 sim(o, a) 계산에 o = Ω(s)를 사용합니다.

04 모델 기획 기반 네트워크 에이전트

저자는 LLM을 월드 모델로 활용하고 복잡한 네트워크 환경에서 효율적인 계획을 달성하기 위한 선구적인 방법인 WebDreamer를 제안합니다.

이 접근 방식은 웹 인터페이스의 복잡성에도 불구하고 인간 사용자가 디자인을 예측할 수 있다는 현상에서 영감을 받았습니다.

웹 사이트를 탐색할 때 인간은 시각적 단서와 일반적인 디자인 패턴을 기반으로 작업 결과를 효과적으로 예측할 수 있습니다. "제출" 버튼을 클릭하면 양식이 제출되고 제품 이미지를 선택하면 세부 정보 페이지로 이동됩니다.

LLM이 대량 웹 관련 데이터에 대해 교육을 받았다는 점을 감안할 때 저자는 사용자 행동의 결과를 모델링하고 효과적인 계획을 위한 세계 모델 역할을 하기에 충분한 지식을 습득했다고 가정합니다.

핵심 디자인

WebDreamer의 핵심은 LLM을 사용하여 시뮬레이션 기능 시뮬레이션과 채점 기능 점수를 구현하는 것입니다.

아래 그림은 WebDreamer가 LLM을 사용하여 세 가지 후보 동작을 시뮬레이션한 결과를 보여줍니다. WebDreamer는 각 동작의 2단계 궤적을 시뮬레이션하고 가장 높은 점수를 갖는 궤적을 선택하고 해당 초기 동작을 실행합니다.

그림은 자연어 설명의 LLM 시뮬레이션에서 세 가지 후보 작업의 궤적을 보여줍니다.

(1) "사무용품"을 클릭하세요.

(2) '전자제품'을 클릭하세요.

(3) 텍스트 상자에 "디스크"를 입력합니다.

이러한 시뮬레이션을 통해 각 결과 궤적에 점수를 매겨 성공 가능성이 가장 높은 조치를 결정합니다.

이 경우 LLM은 가장 좋은 단계로 "Electronics"를 클릭하여 실행합니다. 각 점선 상자는 각 시뮬레이션 작업 후 LLM에서 생성된 상태 설명을 나타냅니다.

심의 구현

시뮬레이션 기능 sim의 구현은 두 개의 모듈 로 구성됩니다. 하나의 모듈 작업이 실행된 후 상태 변화를 예측하고 상태 전환 함수 "T"를 근사화하는 반면, 다른 모듈은 예측된 상태를 기반으로 가능한 작업을 상상합니다.

이 두 모듈 함께 길이 H의 궤적을 생성합니다. 여기서 H는 구성 가능한 시뮬레이션 깊이 매개변수입니다.

특히, 상태 변화를 표현하기 위해 연구자들은 LLM이 동작의 효과에만 초점을 맞춰 간결한 자연어 설명을 생성하도록 유도합니다.

예를 들어 그림 2에서 "전자 제품"을 클릭하는 작업 실행의 효과를 예측하라는 메시지가 표시되면 LLM은 다음과 같은 간단한 설명을 출력합니다.

이 예측된 상태를 기반으로 LLM은 다음 작업(예: "컴퓨터 및 액세서리" 클릭)을 상상하여 상태 변경에 대한 또 다른 추가 예측을 이끌어냅니다.

이 프로세스는 H=2의 시뮬레이션 깊이로 궤적을 생성합니다.

점수의 구현

시뮬레이션을 사용하여 각 후보 행동 ai의 궤적 τi를 시뮬레이션한 후, 연구원들은 LLM을 각 시뮬레이션 궤적의 점수 함수로 추가로 사용했습니다.

그들은 LLM이 작업 완료를 향한 진행 상황을 나타내기 위해 완료(1.0), 진행 중(0.5), 부정확(0)의 세 가지 점수 척도로 각 시뮬레이션된 궤적을 평가하도록 유도했습니다.

최종 점수는 이러한 평가의 여러 샘플을 평균하여 계산됩니다. 시뮬레이션과 점수 외에도 계획의 전제 조건은 후보 행동 생성입니다.

연구진은 2단계 방법을 채택했습니다. 먼저 처음 k개의 동작을 샘플링한 다음 LLM을 사용하여 시뮬레이션을 위한 불필요한 동작을 자체 최적화하고 제거했습니다.

이 자체 최적화 단계는 동일한 k가 여러 단계에서 다양한 수준의 관련 없는 작업을 도입할 수 있다는 연구원의 관찰에 의해 동기가 부여됩니다. 일부 단계는 다른 단계보다 더 적은 수의 효과적인 작업으로 자체적으로 구현될 수 있습니다.

알고리즘 1에서는 WebDreamer의 전반적인 디자인에 대한 의사코드를 보여줍니다. 종료 확인은 모델이 중지 동작을 출력하는지 확인하는 데 사용됩니다. 규칙은 알고리즘이 최대 단계에 도달하거나 동작을 연속 3번 반복하면 알고리즘 실행을 중지한다는 것입니다.

전체 시스템 프롬프트는 다음과 같습니다.

05 실험결과

유효성

표 2에서 볼 수 있듯이 WebDreamer는 VWA 및 Mind2Web-live 데이터 세트의 반응 에이전트에 비해 상당한 개선을 보여줍니다.

VWA 데이터 세트에서는 33.3%의 상대적 성능 향상이 달성되었습니다.

Mind2Web-live 데이터 세트에서는 Reactive 패러다임과 비교하여 2.9% 향상되었습니다(상대 이득은 13.1%).

트리 검색 기반 기법은 전체 성공률 측면에서 여전히 높지만 실제로 실제 네트워크 시나리오에는 적합하지 않습니다. WebDreamer는 보다 유연하고 적응 가능한 대안을 제공할 수 있습니다.

표 2: VisualWebArena 및 Mind2Web-live의 결과

더 나아가 연구원들은 VWA 데이터 세트에서 WebDreamer 및 Reactive 패러다임의 다차원 성능을 비교했습니다.

표 3은 모델 기반 계획 접근 방식이 모든 사이트 및 작업 난이도 수준에서 반응형 패러다임 기반 접근 방식보다 일관되게 우수함을 보여줍니다.

VWA가 공식적으로 분류한 중간 난이도 작업에서는 모델 기반 계획이 트리 검색 방식의 성능을 능가했습니다(24.1% VS 22.2%).

색인

모델 기반 계획 및 트리 검색 솔루션의 상대적 성능을 측정하는 데 사용됩니다.

표 3: 다양한 차원에 해당하는 성공률

능률

모델 기반 계획의 또 다른 주요 이점은 트리 검색과 관련된 작업 수행의 효율성입니다.

표 4에서 볼 수 있듯이 트리 검색은 모든 환경에서 기준선보다 약 3배 많은 단계가 필요한 반면, WebDreamer의 해당 작업 단계 수는 기준선과 유사합니다.

트리 검색은 추가 작업 및 역추적으로 인해 실시간 지연이 약 10배 발생하는 반면 WebDreamer의 시뮬레이션 오버헤드는 적고 향상된 병렬화를 통해 더욱 줄일 수 있다는 점은 주목할 가치가 있습니다.

표 4: VWA의 작업 단계 및 총 시간 소비

사례 연구

계획에서 시뮬레이션의 역할을 설명하기 위해 연구원들은 시뮬레이션이 에이전트가 환경을 탐색하는 데 어떻게 도움이 될 수 있는지, 그리고 시뮬레이션 부정확성이 어떻게 잘못된 예측으로 이어질 수 있는지에 대한 긍정적인 예와 부정적인 예가 포함된 사례 연구를 제시합니다.

부적절하게 구성된 세계 모델을 사용한 시뮬레이션으로 인해 발생하는 오류는 다음과 같습니다.

연구원이 상담원에게 지시한 내용은 다음과 같습니다. 사진 속 제품과 동일한 브랜드의 프린터를 찾아주세요. 흰색이어야 하며 평균 평점이 4보다 큰 리뷰가 11개 이상 있어야 합니다.

월드 모델 시뮬레이션의 이점을 얻는 긍정적인 예는 다음과 같습니다.

이 경우 에이전트는 앞면에 새가 있는 셔츠 두 장을 정확하게 발견했습니다.

06 작가 소개

유구 (Gu Yu)

Yu Gu는 오하이오 주립 대학교에서 박사 과정을 밟고 있으며 이전에 난징 대학교에서 컴퓨터 공학 학사 및 석사 학위를 받았습니다.

보위안 정

Boyan Zheng은 현재 오하이오 주립대학교에서 Yu Su 교수의 지도를 받는 박사 과정 1년차 학생입니다.

그 전에는 Northeastern University에서 소프트웨어 공학 학사 학위를 취득하고 Johns Hopkins University에서 컴퓨터 과학 석사 학위를 취득했으며 그곳에서 Benjamin Van Durme 교수와 함께 일했습니다.

그의 주요 연구 초점은 인간을 지루한 작업에서 해방시키고 특히 온라인 환경에서 의사 결정을 지원할 수 있는 언어 에이전트를 개발하는 것입니다. 기타에는 다중 양식, 기초, 계획 및 추론, 합성 데이터 및 에이전트 보안이 포함됩니다.

참고자료:

https://arxiv.org/pdf/2411.06559

이 기사는 WeChat 공개 계정 "Xin Zhiyuan" 에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트