저자: 의식
번역: 현지 블록체인
최근에는 철학, 게임, 인공지능 등 여러 분야에서 에이전트의 개념이 점점 중요해지고 있습니다. 전통적으로 대리인이란 자율적으로 행동하고, 선택을 하며, 일반적으로 인간과 관련된 자질인 의도성을 가질 수 있는 실체를 말합니다.
인공지능 분야에서는 에이전시의 의미가 더욱 복잡해진다. 자신의 환경에서 독립적으로 관찰하고, 학습하고, 행동할 수 있는 자율적 에이전트의 출현으로 과거의 추상적인 에이전시 개념이 컴퓨팅 시스템이라는 구체적인 형태를 갖게 되었습니다. 이러한 에이전트는 인간의 개입이 거의 필요하지 않으며, 의사 결정을 내리고, 경험을 통해 배우고, 점점 더 복잡한 방식으로 다른 에이전트 또는 인간과 상호 작용할 수 있는 무의식적이지만 계산적으로 의도적인 능력을 보여줍니다.
이 기사에서는 자율 에이전트의 새로운 분야, 특히 LLM (대형 언어 모델 ) 기반 에이전트와 게임, 거버넌스, 과학, 로봇 공학 등과 같은 다양한 분야에 미치는 영향을 살펴봅니다 . 본 논문에서는 에이전시(Agent)의 기본 원리를 탐구한 것을 바탕으로 인공지능 에이전트의 아키텍처와 응용을 분석할 것이다. 이러한 분류학적 관점은 이러한 에이전트가 작업을 수행하고, 정보를 처리하고, 특정 운영 프레임 내에서 발전하는 방법에 대한 통찰력을 제공합니다.
이 기사의 목표는 다음 두 가지 측면을 포함합니다.
기억, 인식, 추론, 계획과 같은 구성 요소를 중심으로 인공 지능 에이전트와 해당 아키텍처 기반에 대한 체계적인 개요를 제공합니다.
인공 지능 에이전트 연구의 최신 동향을 살펴보고 가능한 것을 재정의하는 데 사용되는 사례를 강조합니다.
참고: 기사의 길이로 인해 이 기사 편집에서는 원문이 삭제되었습니다.
1. 기관 조사 동향
LLM(대형 언어 모델)을 기반으로 하는 에이전트의 개발은 상징적 추론, 반응 시스템, 강화 학습 및 적응형 학습의 여러 발전을 포괄하는 인공 지능 연구의 큰 발전을 의미합니다.
상징적 에이전트(Symbolic Agent ): 규칙과 구조화된 지식을 통해 인간의 추론을 시뮬레이션하며 특정 문제(예: 의료 진단)에 적합하지만 복잡하고 불확실한 환경을 다루기 어렵습니다.
반응 에이전트 : "감지-행동" 주기를 통해 환경에 빠르게 반응합니다. 이는 빠른 상호 작용 시나리오에 적합하지만 복잡한 작업을 완료할 수 없습니다.
강화학습 에이전트 (Reinforcement Learning Agent) : 시행착오 학습을 통해 행동을 최적화하며 게임, 로봇 등에서 널리 사용된다. 그러나 훈련 시간이 길고 표본 효율성이 낮으며 안정성이 좋지 않다.
LLM 기반 에이전트 : LLM 에이전트는 기호 추론, 피드백 및 적응형 학습을 결합하고 퓨샷 및 제로샷 학습 기능을 갖추고 있으며 소프트웨어 개발, 과학 연구 및 기타 분야에서 널리 사용되며 동적 환경에 적합하며 다른 사람들과 협업할 수 있습니다. 자치령 대표.
2. 에이전시 아키텍처
최신 에이전트 아키텍처는 포괄적인 시스템을 구성하는 여러 모듈 로 구성됩니다.
1) 아카이브 모듈
프로필 모듈 에이전트 행동을 결정하고 역할이나 성격을 할당하여 일관성을 보장합니다. 이는 안정적인 성격이 필요한 시나리오에 적합합니다. LLM 상담원의 프로필은 인구통계학적 페르소나, 가상 페르소나, 개인화된 페르소나의 세 가지 범주로 나뉩니다.
'페르소나에서 개인화까지' 논문에서 발췌
역할에 따른 성능 향상 역할 설정은 에이전트의 성능과 추론 능력을 크게 향상시킬 수 있습니다. 예를 들어, LLM의 답변은 전문가로서 활동할 때 더욱 심층적이고 맥락적입니다. 다중 에이전트 시스템에서 역할 매칭은 협업을 촉진하여 작업 완료율과 상호 작용 품질을 향상시킵니다.
프로필 생성 방법 LLM 상담원 프로필은 다음과 같은 방법으로 생성할 수 있습니다.
수동 디자인 : 캐릭터 특성을 수동으로 설정합니다.
LLM 생성 : LLM을 통해 캐릭터 설정을 자동으로 확장합니다.
데이터 세트 정렬 : 실제 데이터 세트를 기반으로 구축되어 상호 작용의 신뢰성을 향상합니다.
2) 메모리 모듈
기억력은 적응형 계획과 의사결정을 지원하는 LLM 에이전트의 핵심입니다. 메모리 구조는 인간 프로세스를 시뮬레이션하며 주로 두 가지 범주로 나뉩니다.
통합기억(Unified Memory) : 단기기억, 최근 정보를 처리하는 기억. 텍스트 차단, 메모리 요약 및 수정된 주의 메커니즘을 통해 최적화되었지만 컨텍스트 창에 의해 제한됩니다.
하이브리드 메모리 : 단기 기억과 장기 기억을 결합하고, 효율적인 회상을 위해 외부 데이터베이스에 저장된 장기 기억을 결합합니다.
메모리 형식 일반적인 메모리 저장 형식은 다음과 같습니다.
자연어 : 유연하고 의미가 풍부합니다.
벡터 포함 : 빠른 검색을 위한 것입니다.
데이터베이스 : 구조화된 저장소를 통한 쿼리를 지원합니다.
구조화된 목록 : 목록 또는 계층적 형태로 구성됩니다.
메모리 작업 에이전트는 다음 작업을 통해 메모리와 상호 작용합니다.
메모리 액세스 : 정보에 입각한 의사 결정을 지원하기 위해 관련 정보를 검색합니다.
메모리 쓰기 : 중복 및 오버플로를 방지하기 위해 새로운 정보를 저장합니다.
기억 반영 : 경험을 요약하고 추상적 추론 능력을 향상시킵니다.
"Generative Agents" 논문의 내용을 기반으로 함
연구의 의의와 과제
메모리 시스템은 에이전트의 능력을 향상시키지만 연구 과제도 제기합니다.
확장성 및 효율성 : 메모리 시스템은 대량 의 정보를 지원하고 빠른 검색을 보장해야 합니다. 장기 메모리 검색을 최적화하는 방법은 여전히 연구의 초점입니다.
상황 제한 처리 : 현재 LLM은 상황 창에 의해 제한되며 대용량 메모리를 관리하기 어렵습니다. 연구에서는 메모리 처리 기능을 확장하기 위해 동적 주의 메커니즘과 요약 기술을 탐구합니다.
장기 기억 의 편향과 표류 : 기억에는 편향이 있을 수 있으며, 이는 정보 처리의 우선순위와 기억 표류로 이어질 수 있습니다. 편향은 에이전트의 균형을 유지하기 위해 정기적으로 업데이트되고 수정되어야 합니다.
치명적인 망각 : 새로운 데이터가 오래된 데이터를 덮어쓰게 되어 핵심 정보가 손실됩니다. 경험 재생 및 기억 통합 기술을 통해 핵심 기억을 강화해야 합니다.
3) 지각능력
LLM 에이전트는 인간이 감각 입력에 의존하는 방식과 유사하게 다양한 데이터 소스를 처리하여 환경에 대한 이해와 의사 결정 능력을 향상시킵니다. 다중 모드 인식은 텍스트, 시각, 청각과 같은 입력을 통합하여 에이전트의 복잡한 작업 수행 능력을 향상시킵니다. 주요 입력 유형과 해당 응용 프로그램은 다음과 같습니다.
텍스트 입력 텍스트는 LLM 상담원의 기본 통신 방법입니다. 상담원이 높은 수준의 언어 능력을 보유하고 있더라도 지침 뒤에 숨겨진 의미를 이해하는 것은 여전히 어려운 일입니다.
암시적 이해 : 강화 학습을 통해 선호도를 조정하고, 모호한 지시 사항과 추론된 의도를 처리합니다.
제로 샘플 및 소수 샘플 기능 : 추가 교육 없이 새로운 작업에 대응할 수 있으며 다양한 상호 작용 시나리오에 적합합니다.
시각적 입력 시각적 인식을 통해 에이전트는 객체와 공간 간의 관계를 이해할 수 있습니다.
이미지를 텍스트로 : 텍스트 설명을 생성하면 시각적 데이터를 처리하는 데 도움이 되지만 세부정보가 손실될 수 있습니다.
변환기 기반 인코딩 : Vision Transformers는 이미지를 텍스트 호환 토큰으로 변환합니다.
브리징 도구 : BLIP-2 및 Flamingo와 같은 도구는 중간 레이어를 사용하여 시각적 및 텍스트 도킹을 최적화합니다.
청각 입력 청각 인식을 통해 에이전트는 소리와 음성을 인식할 수 있으며 이는 대화형 및 리스크 시나리오에서 특히 중요합니다.
음성 인식 및 합성 : Whisper(음성을 텍스트로 변환) 및 FastSpeech(텍스트를 음성으로 변환) 등.
스펙트로그램 처리 : 오디오 스펙트로그램을 이미지로 처리하여 청각 신호 분석 기능을 향상시킵니다.
다중 모드 인식에 대한 연구 과제 및 고려 사항:
데이터 정렬 및 통합 다중 모드 데이터는 인식 및 응답 오류를 방지하기 위해 효율적으로 정렬되어야 합니다. 연구에서는 다중 모드 변환기 및 교차 주의 계층을 최적화하는 데 중점을 둡니다.
확장성 및 효율성 다중 모드 처리는 특히 고해상도 이미지와 오디오를 처리할 때 수요가 많습니다. 자원 소비가 적고 확장 가능한 모델을 개발하는 것이 중요합니다.
치명적인 망각 다중 모드 에이전트는 치명적인 망각에 직면하고 주요 정보를 효과적으로 유지하기 위해 우선순위 재생 및 지속적인 학습과 같은 전략이 필요합니다.
상황에 맞는 응답 생성 감각 데이터의 상황에 따라 우선순위가 지정된 처리를 기반으로 응답을 생성하는 것은 특히 시끄럽거나 시각적으로 지배적인 환경에서 연구의 초점으로 남아 있습니다.
4) 추론과 계획
추론 및 계획 모듈 에이전트가 복잡한 작업을 분해하여 문제를 효율적으로 해결하도록 도와줍니다. 인간과 유사하게 구조화된 계획을 수립할 수 있어 사전에 완전한 계획을 세우고 피드백을 기반으로 실시간으로 전략을 조정할 수 있습니다. 계획 방법은 피드백 유형별로 분류됩니다.
일부 에이전트는 실행 전에 완전한 계획을 수립하고 계획을 수정하지 않고 단일 경로 또는 여러 옵션을 실행합니다.
다른 에이전트는 동적 환경의 피드백을 기반으로 실시간으로 전략을 조정합니다.
피드백 없는 계획 피드백이 없는 경우 에이전트는 처음부터 완전한 계획을 수립하고 조정 없이 실행합니다. 단일 경로 계획(단계별 실행) 및 다중 경로 계획(여러 옵션을 동시에 탐색하고 최상의 경로 선택)이 포함됩니다.
단일 경로 추론 작업은 순차적 단계로 구분되며 각 단계는 다음 단계를 따릅니다.
CoT (Chain of Thought ) : 소수의 예시를 통해 에이전트가 단계별로 문제를 해결하도록 안내하고 모델 출력의 품질을 향상시킵니다.
Zero-shot-CoT : 미리 설정된 예시가 필요 없으며, 제로샷 학습에 적합한 "단계별 사고"를 유도하여 추론을 수행합니다.
다시 프롬프트 : 수동 입력 없이 유효한 CoT 프롬프트를 자동으로 검색합니다.
CoT 논문에서
5) 다중 경로 추론
단일 경로 추론과 달리 다중 경로 추론을 사용하면 에이전트가 동시에 여러 단계를 탐색하고, 여러 잠재적 솔루션을 생성 및 평가하고, 특히 여러 단계가 있는 경우 가장 적합한 경로를 선택할 수 있습니다. 가능한 경로.
예:
CoT-SC(자기 일관성 있는 연쇄 사고) : CoT 프롬프트 출력에서 여러 추론 경로를 샘플링하고 빈도가 가장 높은 단계를 선택하고 "자기 통합"을 달성합니다.
ToT(생각의 트리) : 논리적 단계를 트리 구조로 저장하고, 솔루션에 대한 각 "생각"의 기여도를 평가하고, 너비 우선 또는 깊이 우선 검색 탐색을 사용합니다.
GoT(Graph of Mind) : ToT를 그래프 구조로 확장하여 생각을 정점으로, 종속성을 가장자리로 사용하여 보다 유연한 추론을 가능하게 합니다.
RAP(Resoning through Planning) : 언어 모델이 추론 트리를 구축하고 피드백을 제공하는 MCTS(Monte Carlo Tree Search)를 사용하여 여러 계획을 시뮬레이션합니다.
6) 외부 기획자
LLM이 도메인별 계획 문제 대면 할 때 외부 기획자는 LLM이 부족한 전문 지식을 통합하여 지원을 제공합니다.
LLM +P : 작업을 PDDL(Planning Domain Definition Language)로 변환하고 외부 플래너를 통해 해결하여 LLM이 복잡한 작업을 완료하도록 돕습니다.
CO-LLM : 모델 협업 텍스트를 생성하고, 모델 생성 태그 교대로 선택하여 최적의 협업 모델이 자연스럽게 출현하도록 합니다.
피드백을 통한 계획 피드백을 통한 계획을 통해 상담원은 환경 변화에 따라 실시간으로 작업을 조정하고 예측할 수 없거나 복잡한 시나리오에 적응할 수 있습니다.
환경 피드백 에이전트는 환경과 상호 작용할 때 실시간 피드백을 기반으로 계획을 조정하고 작업 진행 상황을 유지합니다.
ReAct : 추론과 행동 프롬프트를 결합하여 상호 작용 중에 적응 가능한 계획을 만듭니다.
DEPS : 업무계획 수립 시 계획을 수정하고, 미완성된 하위 목표를 처리합니다.
SayPlan : 장면 그래프와 상태 전환 개선 전략을 사용하여 상황 인식을 향상시킵니다.
"ReAct" 논문에서
7) 수동 피드백
인간과 상호 작용함으로써 에이전트가 인간의 가치에 부합하고 실수를 피할 수 있도록 도와줍니다. 예:
내부 독백 : 인간의 피드백을 상담사 계획에 통합하여 행동이 인간의 기대와 일치하는지 확인합니다.
모델 피드백 사전 훈련된 모델의 피드백은 에이전트가 추론과 행동을 자가 점검하고 최적화하는 데 도움이 됩니다. 예:
SelfCheck : 추론 체인의 오류를 자체 식별하고 정확성을 평가하는 제로샷 단계별 검사기입니다.
반사(Reflexion) : 에이전트는 장기적인 학습과 오류 수정을 촉진하기 위해 피드백 신호를 기록하여 반영합니다.
"SelfCheck" 논문에서
추론 및 계획의 과제 및 연구 방향 추론 및 계획 모듈 에이전트의 기능을 향상하지만 여전히 과제에 직면해 있습니다.
확장성 및 컴퓨팅 요구 사항 : ToT 또는 RAP와 같은 복잡한 방법에는 대량 컴퓨팅 리소스가 필요하며 효율성 향상은 여전히 연구 초점입니다.
피드백 통합의 복잡성 : 여러 소스의 피드백을 효과적으로 통합하고 정보 과부하를 피하는 것이 성능 저하 없이 적응성을 향상시키는 열쇠입니다.
의사결정의 편견 : 특정 피드백 소스 또는 경로의 우선순위를 지정하면 편견이 발생할 수 있으며, 편견 제거 기술을 통합하는 것이 균형 잡힌 계획의 핵심입니다.
8) 액션
작업 모듈 은 에이전트 의사 결정 프로세스의 마지막 단계이며 다음을 포함합니다.
Action Goals : 에이전트는 작업 완료, 의사소통, 환경 탐색 등 다양한 목표를 수행합니다.
액션 생성(Action Generation ) : 기억이나 계획에 기반한 액션과 같이 회상이나 계획을 통해 액션을 생성하는 것입니다.
행동 공간(Action space) : 작업을 수행하기 위한 API, 데이터베이스 또는 외부 모델과 같은 내부 지식과 외부 도구가 포함됩니다. 예를 들어 HuggingGPT 및 ToolFormer와 같은 도구는 작업 실행을 위해 외부 모델이나 API를 활용합니다.
데이터베이스 및 기술 자료: ChatDB는 SQL 쿼리를 사용하여 도메인별 정보를 검색하는 반면 MRKL은 복잡한 추론을 위해 전문가 시스템과 계획 도구를 통합합니다.
외부 모델: 에이전트는 비API 모델을 사용하여 특수 작업을 수행할 수 있습니다. 예를 들어 ChemCrow는 약물 발견을 위해 여러 모델을 사용하고 MemoryBank는 텍스트 검색을 향상시키기 위해 두 가지 모델을 사용합니다.
작업의 영향: 작업은 다음과 같이 나눌 수 있습니다.
환경 변화 : Voyager 및 GITM의 자원 수집 또는 건물 구조와 같은 환경 변화.
자기 영향 : 기억을 업데이트하거나 새로운 계획을 세우는 등의 생성적 에이전트.
임무 연결 : 자원을 수집한 후 구조물을 건설하는 Voyager와 같은 특정 작업은 다른 작업을 트리거합니다.
행동 공간 확장: AI 에이전트를 설계하려면 강력한 아키텍처 및 작업 기술이 필요합니다. 능력을 획득하는 방법에는 미세 조정과 비 미세 조정의 두 가지 방법이 있습니다.
미세 조정 획득 기능 :
수동 주석이 달린 데이터 세트 : RET-LLM 및 EduChat과 같이 수동 주석을 통해 LLM 성능을 향상시킵니다.
LLM은 ToolBench와 같은 데이터 세트를 생성하며 LLM 생성 지침을 통해 LLaMA를 미세 조정합니다.
실제 데이터 세트 : MIND2WEB, SQL-PaLM 등 실제 애플리케이션 데이터를 통해 에이전트 성능을 향상시킵니다.
미세 조정 없이 능력 획득 미세 조정이 불가능한 경우 에이전트는 신속한 엔지니어링 및 메커니즘 엔지니어링을 통해 능력을 향상시킬 수 있습니다.
프롬프트 엔지니어링은 설계 프롬프트를 통해 LLM 동작을 안내하여 성능을 향상시킵니다.
CoT(사고 사슬) : 복잡한 문제 해결을 지원하기 위해 중간 추론 단계를 추가합니다.
SocialAGI : 사용자의 정신 상태에 따라 대화를 조정합니다.
Retroformer : 과거의 실패에 대한 반성을 바탕으로 의사결정을 최적화합니다.
메커니즘 엔지니어링은 특수한 규칙과 메커니즘을 통해 에이전트 기능을 향상시킵니다.
DEPS : 실행 프로세스, 피드백 및 목표 선택을 기술하여 오류 수정을 개선하기 위한 최적화 계획입니다.
RoCo : 환경 검사를 기반으로 다중 로봇 협업 계획을 적용합니다.
토론 메커니즘 : 협업을 통해 합의에 도달합니다.
경험 축적
GITM : 텍스트 기반 메모리 메커니즘은 학습 및 일반화 기능을 향상시킵니다.
Voyager : 셀프 피드백을 통해 스킬 실행을 최적화합니다.
자기주도적 진화
LMA3 : 에이전트가 특정 작업 없이도 환경에서 기술을 배울 수 있도록 목표 재조정 및 보상 기능을 지원합니다.
"Voyager" 논문에서
미세 조정은 작업별 성능을 크게 향상시킬 수 있지만 오픈 소스 모델이 필요하고 많은 리소스를 소비합니다. 프롬프트 엔지니어링 및 메커니즘 엔지니어링은 오픈 소스 모델과 폐쇄 소스 모델에 적용 가능하지만 입력 컨텍스트 창에 의해 제한되며 신중한 설계가 필요합니다.
3. 다수의 에이전트(에이전트)를 포함하는 시스템 아키텍처
다중 에이전트 아키텍처는 작업을 여러 에이전트에 할당하고 각각은 서로 다른 측면에 중점을 두어 견고성과 적응성을 향상시킵니다. 에이전트 간의 협업과 피드백을 통해 전체적인 실행 효과가 향상되며, 에이전트 수는 필요에 따라 동적으로 조정될 수 있습니다. 그러나 이 아키텍처는 조정 문제에 직면해 있으며 정보 손실이나 오해를 방지하려면 의사소통이 중요합니다.
에이전트 간의 의사소통과 조정을 촉진하기 위해 연구는 두 가지 조직 구조에 중점을 둡니다.
수평적 구조 : 모든 상담원이 의사결정을 공유하고 최적화하며, 집단 의사결정을 통해 개인의 의사결정을 집계하므로 컨설팅이나 도구 사용 시나리오에 적합합니다.
수직적 구조 : 한 명의 에이전트가 예비적인 해결책을 제안하고, 다른 에이전트는 피드백을 제공하거나 관리자의 감독을 받습니다. 수학 문제 해결이나 소프트웨어 개발 등 세련된 솔루션이 필요한 작업에 적합합니다.
"ChatDev" 논문에서
1) 하이브리드 조직구조
DyLAN은 수직 및 수평 구조를 하이브리드 접근 방식으로 결합하여 에이전트가 동일한 계층 내에서 수평으로 협업하고 시간 단계에 걸쳐 정보를 교환합니다. DyLAN은 순위 모델과 에이전트 중요도 점수 시스템을 도입하여 가장 관련성이 높은 에이전트를 동적으로 평가하고 선택하여 협업을 계속합니다. 성과가 낮은 에이전트는 비활성화되어 계층적 구조를 형성합니다. 높은 순위의 에이전트는 임무와 팀 구성에서 중요한 역할을 합니다.
협력적 다중 에이전트 프레임 정보를 공유하고 조치를 조정하여 효율성을 극대화하기 위한 상호 보완적인 협력을 달성함으로써 각 에이전트의 장점에 중점을 둡니다.
"Agentverse" 논문에서
협력적 상호작용에는 두 가지 유형이 있습니다.
비순차적 협력 : 브레인스토밍과 유사하게 다수의 에이전트가 정해진 순서나 프로세스를 따르지 않고 자유롭게 상호 작용합니다. 각 에이전트는 피드백을 제공하며, 시스템은 입력을 통합하고 에이전트 조정을 통해 혼란을 피하기 위해 응답을 구성하며, 합의에 도달하기 위해 종종 다수결 투표 메커니즘을 사용합니다.
질서 있는 협력 : 에이전트는 구조화된 프로세스에 따라 순차적으로 상호 작용하며 각 에이전트는 효율적인 의사소통을 보장하기 위해 이전 에이전트의 출력에 주의를 기울입니다. 작업은 신속하게 완료되어 혼란을 피하지만, 교차 검증이나 사람의 개입을 통해 오류가 증폭되는 것을 방지해야 합니다.
MetaGPT 논문에서
적대적 다중 에이전트 프레임워크 협력 프레임 는 효율성과 협업을 촉진하는 반면, 적대적 프레임 문제를 통해 에이전트 진화를 촉진합니다. 게임 이론에서 영감을 받은 적대적 상호 작용은 에이전트가 피드백과 반성을 통해 행동을 개선하도록 장려합니다. 예를 들어 AlphaGo Zero는 셀프 플레이를 통해 전략을 향상시키고, LLM 시스템은 토론과 맞대결 교환을 통해 결과의 품질을 향상시킵니다. 이 접근 방식은 에이전트 적응성을 향상시키지만 계산 오버헤드와 오류 리스크 발생합니다.
긴급 행동 다중 에이전트 시스템에서는 세 가지 긴급 행동이 발생할 수 있습니다.
자원봉사 행동: 에이전트는 자원을 적극적으로 기부하거나 다른 사람을 돕습니다.
일관된 행동: 에이전트는 팀 목표에 맞게 행동을 조정합니다.
파괴적인 행동: 에이전트는 목표를 빠르게 달성하기 위해 극단적인 행동을 채택할 수 있으며, 이로 인해 보안 위험이 발생할 수 있습니다.
벤치마크 테스트 및 평가 벤치마크 테스트는 에이전트의 성능을 평가하기 위한 핵심 도구입니다. 일반적으로 사용되는 플랫폼에는 계획, 협업 및 작업 실행에서 에이전트의 능력을 테스트하는 데 사용되는 ALFWorld, IGLU 및 Minecraft 등이 있습니다. 동시에 도구 사용 및 사회적 능력에 대한 평가도 매우 중요합니다. ToolBench 및 SocKET과 같은 플랫폼은 각각 에이전트의 적응성과 사회적 이해를 평가합니다.
응용 디지털 게임은 인지 능력에 중점을 두고 AGI 연구를 촉진하는 LLM 기반 게임 에이전트가 되었습니다.
"대언어 모델 기반 게임 에이전트 조사" 논문에서 발췌
게임에서의 에이전트 인식 비디오 게임에서 에이전트는 인식 모듈 통해 게임 상태를 이해합니다. 세 가지 주요 방법이 있습니다.
상태 변수 액세스 : 게임 API를 통해 기호 데이터에 액세스하므로 시각적 요구 사항이 낮은 게임에 적합합니다.
외부 비주얼 인코더 : 상담원이 환경을 이해할 수 있도록 비주얼 인코더를 사용하여 이미지를 CLIP 등의 텍스트로 변환합니다.
다중 모드 언어 모델 : GPT-4V와 같이 시각적 데이터와 텍스트 데이터를 결합하여 에이전트의 적응성을 향상시킵니다.
게임 에이전트 사례 연구
Cradle(어드벤처 게임) : 이 게임에서는 에이전트가 스토리라인을 이해하고, 퍼즐을 풀고, 탐색하면서 다중 모드 지원, 동적 기억 및 의사 결정이라는 과제에 직면해야 합니다. Cradle의 목표는 일반 컴퓨터 제어(GCC)를 달성하여 에이전트가 화면 및 오디오 입력을 통해 더 다양한 컴퓨터 작업을 수행할 수 있도록 하는 것입니다.
Poké LL Mon(경쟁 게임)의 경쟁 게임은 엄격한 규칙과 인간 플레이어에 필적하는 승률로 인해 추론 및 계획 성능의 벤치마크가 되었습니다. 여러 에이전트 프레임 경쟁력 있는 성능을 입증했습니다. 예를 들어, "대규모 언어 모델이 "스타크래프트 2"를 재생합니다: 벤치마크 및 연결 요약 방법"의 LLM 에이전트는 "스타크래프트 2"의 텍스트 버전에 내장된 AI와 경쟁합니다. PokéLLMon은 Pokémon Tactics 게임에서 49%의 순위 승률과 56%의 초대 승률을 달성하여 인간 수준의 성능을 달성한 최초의 LLM 에이전트입니다. 이 프레임 지식 생성과 일관된 행동 생성을 향상하여 연쇄 사고의 환각과 패닉 주기를 방지합니다. 에이전트는 전투 서버의 상태 로그를 텍스트로 변환하여 차례 일관성을 보장하고 메모리 기반 추론을 지원합니다.
에이전트는 HP 변화, 스킬 효과, 액션 시퀀스의 속도 추정, 스킬 상태 효과 등 4가지 유형의 피드백을 통해 학습을 강화하여 전략을 최적화하고 유효하지 않은 스킬의 재사용을 방지합니다.
PokéLLMon은 에이전트가 특수 스킬을 보다 정확하게 사용할 수 있도록 외부 리소스(예: Bulbapedia)를 사용하여 유형 제한 및 스킬 효과와 같은 지식을 얻습니다. 또한 CoT, Self-Consistency, ToT 방법을 평가한 결과 Self-Consistency가 승률을 크게 향상시키는 것으로 나타났습니다.
ProAgent(협력 게임) 협력 게임은 팀원의 의도를 이해하고 행동을 예측하며, 명시적 또는 암묵적인 협력을 통해 작업을 완료하는 것이 필요합니다. 명시적 협력은 매우 효율적이지만 유연성이 떨어지는 반면, 암묵적 협력은 적응형 상호 작용을 위한 팀원 전략 예측에 의존합니다. "Overcooked"에서 ProAgent는 암묵적으로 협력하는 능력을 보여줍니다. 핵심 프로세스는 5단계로 나뉩니다.
지식 수집 및 상태 전환 : 업무 관련 지식을 클레임 하고 언어 설명을 생성합니다.
Skill Planning : 팀원의 의도를 추론하고 행동 방안 수립합니다.
신념 수정 : 팀원 행동에 대한 이해를 동적으로 업데이트하여 오류를 줄입니다.
기술 검증 및 실행 : 조치가 효과적인지 확인하기 위해 계획을 반복적으로 조정합니다.
메모리 저장소 : 향후 의사결정을 최적화하기 위해 상호작용과 결과를 기록합니다.
그중에서도 에이전트가 상호 작용할 때 이해를 업데이트하여 상황 인식과 의사 결정 정확성을 향상시키는 데 신념 수정 메커니즘이 특히 중요합니다.
ProAgent는 5가지 셀프 플레이 및 군중 기반 교육 방법을 뛰어넘습니다.
2) 생성 제 (시뮬레이션)
가상 캐릭터는 인간 행동의 깊이와 복잡성을 어떻게 구현합니까? SHRDLU, ELIZA 등 초기 AI 시스템은 자연어 상호작용을 시도했지만 규칙 기반 방법과 강화학습도 게임에서 발전했지만 일관성과 개방형 상호작용에는 한계가 있었다. 오늘날 LLM과 다층 아키텍처를 결합한 에이전트는 이러한 한계를 극복하고 메모리를 저장하고 이벤트를 반영하며 변화에 적응할 수 있는 능력을 갖추고 있습니다. 연구에 따르면 이러한 에이전트는 실제 인간 행동을 시뮬레이션할 수 있을 뿐만 아니라 정보를 전파하고, 사회적 관계를 설정하고, 행동을 조정하여 가상 캐릭터를 더욱 현실감 있게 만드는 새로운 능력을 보여줍니다.
" 대규모 언어 모델 에이전트 의 부상과 잠재력 : 설문조사" 에서
아키텍처 개요 : 이 아키텍처는 인식, 메모리 검색, 반사, 계획 및 반응을 결합합니다. 에이전트는 메모리 모듈 통해 자연어 관찰을 처리하고 적시성, 중요성 및 상황적 관련성을 기반으로 정보를 평가 및 검색하는 동시에 관계 및 계획에 대한 깊은 통찰력을 제공하는 과거 기억을 기반으로 반성을 생성합니다. 추론 및 계획 모듈 계획-실행 주기와 유사합니다.
시뮬레이션 결과 : 본 연구는 발렌타인 데이 파티와 시장 선거의 정보 전파를 시뮬레이션한 결과, 이틀 만에 시장 후보의 인지도는 4%에서 32%로 증가했고, 정당의 인지도는 4%에서 52%로 증가했으며, 허위 정보 점유비율 도 증가했습니다. 1.3%에 불과했다. 에이전트는 자발적인 조정을 통해 파티를 구성하고 밀도가 0.167에서 0.74로 증가하여 새로운 소셜 네트워크를 형성합니다. 시뮬레이션은 외부 개입 없이 정보 공유 및 사회적 조정 메커니즘을 보여줌으로써 향후 사회 과학 실험에 대한 참고 자료를 제공합니다.
Voyager(제작 및 탐험) : Minecraft에서 에이전트는 독립적으로 제작 작업을 수행하거나 탐색할 수 있습니다. 생산 작업은 LLM 계획 및 작업 분해에 의존하는 반면, 독립적인 탐색은 과정 학습을 통해 작업을 식별하고 LLM은 목표를 생성합니다. Voyager는 자동화된 과정, 기술 라이브러리 및 피드백 메커니즘을 결합하여 탐구 및 학습의 잠재력을 보여주는 구현된 평생 학습 에이전트입니다.
자동 과정에서는 LLM을 활용하여 상담원 상태 및 탐색 진행과 관련된 목표를 생성하므로 작업이 점점 더 복잡해집니다. 에이전트는 작업을 수행하기 위한 모듈 코드를 생성하고, 연쇄적 사고 프롬프트를 통해 피드백 결과를 제공하며, 필요할 때 코드를 수정합니다. 성공하면 나중에 사용할 수 있도록 코드가 스킬 라이브러리에 저장됩니다.
Voyager 프레임 기술 트리의 잠금 해제 효율성을 크게 향상시키며, 나무, 돌, 철의 잠금 해제 속도는 각각 15.3배, 8.5배, 6.4배 더 빠르며 다이아몬드를 잠금 해제하는 유일한 프레임 가 됩니다. 탐색거리가 기준선보다 2.3배 길어지고, 새로운 아이템도 3.3배 더 많이 발견해 뛰어난 평생학습 능력을 발휘한다.
4. 게임 분야의 잠재적인 응용
1) 에이전트 중심의 게임플레이
다중 에이전트 시뮬레이션 : AI 캐릭터가 자율적으로 행동하여 역동적인 게임 플레이를 촉진합니다.
전략 게임 지능형 유닛 : 에이전트는 환경에 적응하고 플레이어 목표에 따라 자율적인 결정을 내립니다.
AI 훈련장 : 플레이어는 AI를 설계하고 훈련하여 작업을 완료합니다.
2) AI 강화 NPC 및 가상 세계
오픈 월드 NPC : LLM은 NPC를 구동하여 경제적, 사회적 역학에 영향을 미칩니다.
실제 대화 : NPC 상호 작용 경험을 향상시킵니다.
가상 생태학 : AI가 생태계 진화를 주도합니다.
동적 이벤트 : 게임 내 활동을 실시간으로 관리합니다.
3) 역동적인 내러티브와 플레이어 지원
적응형 스토리텔링 : 에이전트는 개인화된 작업과 스토리를 생성합니다.
Player Assistant : 팁과 대화형 지원을 제공합니다.
감정적으로 반응하는 AI : 플레이어의 정서 에 따라 상호 작용합니다.
4) 교육과 창조
AI 상대 : 경쟁 및 시뮬레이션에서 플레이어 전략에 적응합니다.
교육용 게임 : 에이전트가 맞춤형 교육을 제공합니다.
제작 지원 : 게임 콘텐츠를 생성하고 개발 임계값을 낮춥니다.
5) 암호화폐와 금융
에이전트는 블록체인을 통해 지갑을 자율적으로 운영하고 DeFi 프로토콜과 거래하고 상호 작용합니다.
스마트 계약 지갑 : 다중 서명 및 계정 추상화를 지원하여 에이전트 자율성을 향상시킵니다.
개인 키 관리 : MPC(다자간 계산) 또는 TEE(신뢰할 수 있는 실행 환경)를 사용하여 Coinbase에서 개발한 AI 에이전트 도구와 같은 보안을 보장합니다.
이러한 기술은 에이전트의 자율적인 온체인 상호작용과 암호화 생태학적 응용을 위한 새로운 기회를 제공합니다.
5. 블록체인 분야의 에이전시 애플리케이션
1) 확인 대리인 추론
오프체인 검증은 블록체인 연구에서 이슈 이며 주로 복잡성이 높은 계산에 사용됩니다. 연구 방향에는 영지식 증명, 낙관적 검증, TEE(Trusted Execution Environment) 및 암호경제학 게임 이론이 포함됩니다.
에이전트 출력 검증 : 온체인 검증기를 통해 에이전트 추론 결과를 확인하여 에이전트가 외부에서 실행될 수 있도록 하고 탈중앙화 오라클 과 마찬가지로 신뢰할 수 있는 추론 결과를 체인에 업로드할 수 있습니다.
사례 : Modulus Labs의 "Leela vs. the World"는 영지식 회로를 사용하여 체스 수를 확인하고 예측 시장과 검증 가능한 AI 출력을 결합합니다.
2) 암호화 에이전트 협업
분산 노드 시스템은 다중 에이전트 시스템을 실행하고 합의에 도달할 수 있습니다.
일반적인 사례 : 여러 노드에서 LLM을 실행하고 온체인 검증과 투표를 결합하여 기관의 조치 결정을 내립니다.
Naptha Protocol : 에이전트 업무의 협업 및 검증을 위한 업무 마켓 및 워크플로우 검증 시스템을 제공합니다.
탈중앙화 AI 오라클 : Ora 프로토콜과 같이 분산 에이전트 운영 및 합의 수립을 지원합니다.
3) 엘리자 프레임
a16z에서 개발한 이 프레임워크는 블록체인용으로 특별히 설계된 오픈 소스 다중 에이전트 프레임 로, 개인화된 지능형 에이전트의 생성 및 관리를 지원합니다.
특징 : 모듈 아키텍처, 장기 메모리, 플랫폼 통합(Discord, X, Telegram 등 지원)
신뢰 엔진 : 자동화된 토큰 거래와 결합하여 추천 신뢰 점수를 평가하고 관리합니다.
4) 기타 대행 신청
탈중앙화 역량 획득 : 기술 라이브러리 생성 및 프로토콜 탐색과 같은 보상 메커니즘을 통한 인센티브 도구 및 데이터 세트 개발.
예측 시장 에이전트 : 예측 시장을 Gnosis 및 Autonolas와 같은 에이전트 자율 거래와 결합하여 온체인 예측 및 답변 서비스를 지원합니다.
프록시 거버넌스 인증 : 프록시를 통해 DAO에서 자동으로 제안을 분석하고 투표합니다.
토큰화된 프록시 : 배당 메커니즘을 지원하는 MyShell 및 Virtuals Protocol과 같은 프록시 수익 공유입니다.
DeFi 의도 관리 : 에이전트는 멀티체인 환경에서 사용자 경험을 최적화하고 자동으로 트랜잭션을 실행합니다.
독립적인 토큰 발행 : 토큰은 토큰의 시장 매력을 높이기 위해 에이전트에 의해 발행됩니다.
자율 아티스트 : 커뮤니티 투표와 온체인 NFT 민트 결합하여 에이전트 생성 및 수익 분배를 지원하는 Botto와 같은 것입니다.
경제적인 게임 에이전트 : AI Arena 등은 강화학습과 모방학습을 결합하여 연중무휴 온라인 게임 대회를 설계합니다.
6. 최근 개발 및 전망: 많은 프로젝트에서 풍부한 응용 분야를 통해 블록체인과 AI의 결합을 탐색하고 있습니다. 후속 작업에서는 온체인 AI 에이전트에 대해 구체적으로 논의할 예정입니다.
1) 예측 능력 예측은 의사결정의 핵심입니다. 전통적인 예측은 통계적 예측과 판단적 예측으로 구분됩니다. 후자는 전문가에 의존하며 비용이 많이 들고 느립니다.
연구 진행 :
뉴스 검색 및 추론 향상을 통해 LLM(대형 언어 모델)의 예측 정확도가 50%에서 71.5%로 증가했습니다. 이는 인간 예측의 77%에 가깝습니다.
12개 모델을 통합한 예측 효과는 인간 팀의 예측 효과에 가깝고 신뢰성을 높이기 위한 '군중의 지혜'를 보여줍니다.
2 ) 역할극
LLM은 사회적 지능과 기억 메커니즘을 결합하여 복잡한 상호 작용을 시뮬레이션하는 역할 수행 분야에서 탁월합니다.
적용 : 캐릭터 시뮬레이션, 게임 상호작용, 개인화된 대화에 사용할 수 있습니다.
방법 : 검색 증강 생성(RAG)과 대화 엔지니어링을 결합하여 몇 번의 프롬프트를 통해 성능을 최적화합니다.
혁신 :
RoleGPT는 역할 컨텍스트를 동적으로 클레임 현실성을 향상합니다.
Character-LLM은 전기 데이터를 활용하여 역사적 인물의 특징을 재현하고 인물을 정확하게 복원합니다.
이러한 기술은 소셜 시뮬레이션 및 개인화된 상호 작용과 같은 영역에서 AI 애플리케이션의 확장을 촉진했습니다.
"Character-LLM" 논문에서 발췌
RPLA(Role-Playing Language Agent ) 적용
다음은 일부 RPLA 애플리케이션의 간략한 목록입니다.
게임 속 인터랙티브 NPC : 감성지능을 갖춘 역동적인 캐릭터를 생성하여 플레이어의 몰입도를 높입니다.
역사적 인물 시뮬레이션 : 교육적이거나 탐구적인 대화를 위해 소크라테스나 클레오파트라와 같은 역사적 인물을 재현합니다.
Story Creation Assistant : 작가, RPG 플레이어 및 제작자를 위한 풍부한 내러티브 및 대화 지원을 제공합니다.
가상 공연 : 인터랙티브 드라마, 가상 이벤트 등 엔터테인먼트 시나리오에서 배우나 유명 인사의 역할을 연기합니다.
AI 공동 창작 : AI와 협력하여 특정 스타일의 예술, 음악 또는 스토리를 만듭니다.
언어 학습 친구 : 시뮬레이션된 원어민이 몰입형 언어 연습을 제공합니다.
사회 시뮬레이션 : 문화적, 윤리적 또는 행동 시나리오를 테스트하기 위해 미래 또는 가상 사회를 구축합니다.
맞춤형 가상 동반자 : 독특한 개성, 특성, 추억을 지닌 개인화된 비서 또는 동반자를 만들어 보세요.
7. AI 정렬 문제
LLM이 인간의 가치와 일치하는지 평가하는 것은 실제 적용 시나리오의 다양성과 개방성으로 인해 어려움이 많은 복잡한 작업입니다. 포괄적인 정렬 테스트를 설계하려면 대량 노력이 필요하지만 기존의 정적 테스트 데이터 세트는 새로운 문제를 적시에 반영할 수 없습니다.
현재 AI 정렬은 대부분 OpenAI의 RLHF(인간 피드백 기반 강화 학습) 방식과 같은 외부 수동 감독을 통해 완료됩니다. 이 프로세스는 GPT-4의 정렬 최적화를 달성하는 데 6개월이 걸리고 대량 리소스를 소비합니다.
수동 감독을 줄이고 검토를 위해 더 큰 LLM을 사용하려는 연구도 있지만 새로운 방향은 에이전트 프레임 의 도움으로 모델 정렬을 분석하는 것입니다. 예를 들어:
1) ALI-Agent 프레임
미묘한 위험 또는 "롱테일"리스크 감지하기 위해 실제 시나리오를 동적으로 생성하여 기존 정적 테스트의 한계를 극복합니다.
2단계 프로세스 :
시나리오 생성 : 데이터 세트 또는 네트워크 쿼리를 기반으로 잠재적인 리스크 시나리오를 생성하고 메모리 모듈 사용하여 과거 평가 기록을 불러옵니다.
장면 최적화 : 정렬 문제가 발견되지 않으면 대상 모델 피드백을 통해 장면을 반복적으로 최적화합니다.
모듈 구성 : 메모리 모듈, 도구 모듈(예: 네트워크 검색) 및 액션 모듈. LLM에서 인식되지 않은 정렬 문제를 효과적으로 밝힐 수 있다는 것이 실험을 통해 입증되었습니다.
2) MATRIX 방식
'다중 역할 놀이' 자기 정렬 방법을 기반으로 사회학 이론에서 영감을 얻어 다자간 상호 작용 시뮬레이션을 통해 가치를 이해합니다.
핵심 기능 :
독점 접근 방식 : 단일 모델이 다양한 역할을 수행하고 사회적 영향을 평가합니다.
Social modifier : 상호작용 규칙과 시뮬레이션 결과를 기록합니다.
혁신 : 미리 설정된 규칙을 버리고, 시뮬레이션된 상호 작용을 통해 LLM의 사회적 인식을 형성하고, 시뮬레이션된 데이터를 사용하여 모델을 미세 조정하여 신속한 자체 정렬을 달성합니다. 실험에 따르면 MATRIX 정렬은 기존 방법보다 성능이 뛰어나고 일부 벤치마크에서는 GPT-4를 능가합니다.
"MATRIX Paper"에서 발췌
에이전트 AI 정렬에 대한 더 많은 연구가 있으며 아마도 자체 기사를 작성할 가치가 있을 것입니다.
거버넌스 및 조직 조직은 표준 운영 절차(SOP)를 사용하여 작업을 조정하고 책임을 할당합니다. 예를 들어, 소프트웨어 회사의 제품 관리자는 SOP를 사용하여 시장 및 사용자 요구 사항을 분석하고 제품 요구 사항 문서(PRD)를 개발하여 개발 프로세스를 안내합니다. 이 구조는 에이전트가 명확한 역할을 갖고, 관련 도구 및 계획 기능을 갖추고, 피드백을 통해 성능을 최적화하는 MetaGPT와 같은 다중 에이전트 프레임 에 적합합니다.
Robotics의 에이전트 기반 아키텍처는 복잡한 작업 계획 및 적응형 상호 작용에서 로봇 성능을 향상시킵니다. 언어 조절 로봇 정책은 로봇이 환경을 이해하고 작업 요구 사항에 따라 실행 가능한 동작 시퀀스를 생성하는 데 도움이 됩니다.
아키텍처 프레임 LLM은 자연어 명령을 효과적으로 구문 분석하고 이를 실행 가능한 작업 순서로 변환하기 위해 고전적인 계획과 결합됩니다. SayCan 프레임 강화 학습과 기능 계획을 결합하여 로봇이 실제로 작업을 수행할 수 있도록 하고 지침의 타당성과 적응성을 보장합니다. 내부 독백은 로봇의 적응성을 더욱 향상시켜 피드백과 행동 조정을 통해 자체 교정을 가능하게 합니다.
예제 프레임 SayCan 프레임 사용하면 로봇이 자연어 지침 대면 때 작업(예: 테이블에서 음료 가져오기)을 평가하고 수행하고 실제 기능과 일치하는지 확인할 수 있습니다.
SayPlan : SayPlan은 3DSG를 사용하여 멀티룸 작업을 효율적으로 계획하고 공간 상황 인식을 유지하며 계획을 검증함으로써 광범위한 공간에서 작업 실행을 보장합니다.
Inner Monologue : 실시간 피드백을 통해 실행을 최적화하고, 환경 변화에 적응하며, 주방 작업, 책상 정리 등의 애플리케이션에 적합한 프레임 입니다.
RoCo : 자연어 추론과 동작 계획을 결합하여 하위 작업 계획을 생성하고 환경 검증을 통해 최적화하여 타당성을 보장하는 제로샷 다중 로봇 협업 방법입니다.
"AI 에이전트를 통한 생물의학적 발견 강화" 과학은 과학적 발견을 지원하기 위해 도구와 전문가를 결합하는 다중 에이전트 프레임 제안합니다. 이 기사에서는 다섯 가지 공동 작업 옵션을 소개합니다.
브레인스토밍 대리인
전문 컨설팅 에이전트
연구토론 대리인
원탁토론대행사
독립 실험실 대리인
이 기사에서는 AI 에이전트의 자율성 수준에 대해서도 설명합니다.
수준 0 : ML 모델은 과학자들이 AlphaFold-Multimer가 단백질 상호 작용을 예측하는 것과 같은 가설을 세우는 데 도움이 됩니다.
레벨 1 : 에이전트가 작업 및 목표 설정을 지원하는 보조자 역할을 합니다. ChemCrow는 머신러닝(ML) 도구를 사용하여 작업 공간을 확장하고 유기 화학 연구를 지원하며 새로운 색소를 성공적으로 발견합니다.
레벨 2 : 레벨 2에서는 AI 에이전트가 과학자와 협력하여 가설을 다듬고, 가설 테스트를 수행하고, 도구를 사용하여 과학적 발견을 내립니다. Coscientist 는 인터넷, API 및 다른 LLM과의 협업과 같은 도구를 사용하여 복잡한 실험을 자율적으로 계획, 설계 및 실행할 수 있고 하드웨어를 직접 제어할 수도 있는 여러 LLM을 기반으로 하는 지능형 에이전트입니다. 그 기능은 화학 합성 계획, 하드웨어 문서 검색, 높은 수준의 명령 실행, 액체 처리 및 복잡한 과학적 문제 해결의 6가지 측면에 반영됩니다.
레벨 3 : 레벨 3에서는 AI 에이전트가 기존 연구 범위를 넘어 새로운 가설을 추론할 수 있다. 이 단계는 아직 달성되지 않았지만 자체 작업을 최적화함으로써 AI 개발의 진행을 가속화할 수 있습니다.
8. 요약: AI 에이전트의 미래
AI 에이전트는 지능의 개념과 적용을 바꾸고 의사 결정과 자율성을 재편하고 있습니다. 그들은 과학적 발견 및 거버넌스 프레임 와 같은 분야에서 도구로서뿐만 아니라 협력 파트너로서도 적극적으로 활동하고 있습니다. 기술이 발전함에 따라 우리는 이러한 행위자의 힘과 잠재적인 윤리적, 사회적 문제 사이의 균형을 유지하여 그 영향을 관리 가능하게 하고 기술을 발전시키며 리스크 줄이는 방법을 다시 생각해야 합니다.
이 기사 링크: https://www.hellobtc.com/kp/du/11/5549.html
출처: https://accelxr.substack.com/p/ai-agents-research-and-applications