AI 에이전트가 AIGC의 마지막 비장의 카드인 이유는?

11-20

이 기사는 기계로 번역되었습니다

원문 표시

저자: Hu Xiaomeng, Chen Chuyi Tencent 연구소‍‍‍‍

AI 에이전트는 현재 가장 흥미로운 대형 모델 개발 라인임에 틀림없으며, "차세대 대형 모델 전쟁", "마지막 킬러 제품", "새로운 산업 혁명의 시대를 여는 에이전트 중심"이라고 불립니다. 11월 7일, OpenAI의 첫 번째 개발자 컨퍼런스(OpenAI DevDay)에서 AI 에이전트가 폭발했습니다. OpenAI는 AI Agent 제품 GPT의 초기 형태를 출시하고 해당 생산 도구인 GPT Builder를 출시했습니다. 사용자는 GPT Builder와 채팅하고 원하는 GPT 기능을 설명하는 것만으로 전용 GPT를 생성할 수 있습니다. 독점적인 GPT는 일상 생활, 특정 작업, 직장 또는 가정에서 더 잘 적용될 수 있습니다. 이를 위해 OpenAI는 신규 API(비전, 이미지 DALL·E3, 음성 포함)와 새롭게 출시된 어시스턴트 API도 대량 공개해 개발자들이 보다 쉽게 자체 GPT를 개발할 수 있도록 했다. Bill Gates의 최신 기사에서는 AI 에이전트가 5년 내에 대중화될 것이며 각 사용자는 독점적인 AI 에이전트를 갖게 될 것이라고 분명히 밝혔습니다. 사용자는 더 이상 다양한 기능 요구 사항에 따라 다양한 앱을 사용할 필요가 없으며, 에이전트에게 일상 언어로 원하는 작업을 알려주기만 하면 됩니다. [1]

GPT가 출시된 지 일주일 만에 17,500개 이상 누적되었습니다.

그렇다면 AI Agent란 정확히 무엇일까요? 업계가 그렇게 높은 관심을 기울이는 것이 왜 그렇게 중요한가?일부 학자들은 "미국 Agent Store의 좋은 발전은 중국과 미국의 대형 모델 간의 격차를 계속해서 벌릴 것"이라고 주장하기도 했습니다.[2]

AI 에이전트란?

컴퓨터와 인공지능 등 전문적이고 기술적인 분야에서 에이전트는 일반적으로 "지능형"으로 번역되는데, 이는 특정 환경에서 자율적, 반응적, 사회적, 선제적, 추측적(심의적), 인지적이라는 의미로 정의되는 소프트웨어 또는 지능과 같은 하나 이상의 지능적 특성을 가진 하드웨어 개체입니다. [삼]

OpenAI는 AI 에이전트를 대규모 언어 모델을 브레인 드라이버로 사용하고 인식, 계획, 기억 및 도구 사용을 자율적으로 이해하고 복잡한 작업을 자동으로 수행할 수 있는 시스템으로 정의합니다. [4] AI Agent의 기본 프레임 다음과 같습니다.

LLM 드라이버 기반 에이전트의 기본 프레임[5]

여기에는 기억, 계획, 실행 및 도구 사용의 네 가지 주요 모듈 있습니다.

(1) 기억. 메모리 모듈 과거 상호 작용, 학습된 지식, 임시 작업 정보 등의 정보를 저장하는 역할을 합니다. 지능형 에이전트의 경우 효과적인 메모리 메커니즘은 새롭거나 복잡한 상황에 대면 때 과거의 경험과 지식을 호출할 수 있도록 보장할 수 있습니다. 예를 들어, 메모리 기능을 갖춘 챗봇은 사용자의 선호도나 이전 대화를 기억하여 보다 개인화되고 일관된 커뮤니케이션 경험을 제공할 수 있습니다. 단기 기억과 장기 기억으로 구분됩니다: a. 단기 기억, 모든 상황별 학습은 학습을 위해 단기 기억을 사용합니다. b. 에이전트에게 유지하고 회상하는 능력을 제공하는 장기 기억 (무한) 정보는 일반적으로 특정 산업 분야에서 축적된 대량 의 데이터와 지식 등 외부 벡터 데이터베이스의 사용과 신속한 검색을 통해 이루어집니다. 장기기억을 사용하면 많은 데이터를 축적할 수 있어 에이전트의 활용도가 높아지고 산업 깊이, 개인화, 특화 기능 등의 장점이 있다.

(2) 계획. 계획 모듈 사전 계획과 사후 반영의 두 단계가 있습니다. 복잡한 작업을 수행할 때와 같이 미래 행동에 대한 예측과 의사결정을 포함하는 사전 계획 단계에서 에이전트는 큰 목표를 더 작고 관리 가능한 하위 목표로 분해하여 일련의 단계나 행동을 효율적으로 계획할 수 있습니다. , 원하는 결과를 얻으려면. 사후반성 단계에서는 상담원이 계획의 부족한 점을 확인하고 개선하며, 실수와 부족한 점을 반성하고, 개선을 위한 교훈을 배우는 능력을 갖고, 상담원이 실수를 방지하고 업데이트할 수 있도록 장기기억을 형성하고 추가하는 능력을 갖습니다. 미래 세계에 대한 이해..

(3) 도구 사용. 도구 사용 모듈 작업을 수행하기 위해 외부 리소스나 도구를 활용하는 에이전트의 능력을 나타냅니다. 예를 들어, LLM 자체의 약점을 보완하기 위해 현재 정보, 코드 실행 기능, 독점 정보 소스에 대한 액세스 등 모델 가중치에 누락된 추가 정보를 얻기 위해 외부 API를 호출하는 방법을 배웁니다. 예를 들어 LLM의 학습 데이터는 실시간으로 업데이트되지 않는데, 이 경우 인터넷에 접속하여 최신 정보를 얻을 수 있는 도구를 사용하거나 특정 소프트웨어를 사용하여 대량 의 데이터를 분석할 수 있습니다. 시중에는 이미 대량 디지털 및 지능형 도구가 있으며, 에이전트는 인간보다 더 원활하고 효율적으로 도구를 사용하며, 다양한 API나 도구를 호출하여 복잡한 작업을 완료하고 고품질의 결과를 출력할 수 있습니다. 지능형 에이전트의 중요한 기능과 장점을 나타냅니다.

(4) 행동. 작업 모듈 실제로 결정이나 응답을 수행하는 에이전트의 일부입니다. 다양한 작업 대면 에이전트 시스템은 완전한 작업 전략 세트를 갖추고 있으며 잘 알려진 메모리 검색, 추론, 학습, 프로그래밍 등과 같은 결정을 내릴 때 수행할 작업을 선택할 수 있습니다.

전반적으로 이 네 가지 모듈 함께 작동하여 상담원이 더 넓은 범위의 상황에서 조치를 취하고 결정을 내릴 수 있도록 하며, 복잡한 작업을 더 스마트하고 효율적인 방식으로 수행할 수 있도록 합니다. [6]

AI 에이전트가 가져올 것

더 넓은 인간-기계 통합

대형 모델을 기반으로 하는 에이전트는 모든 사람이 향상된 기능을 갖춘 전용 지능형 비서를 보유할 수 있게 할 뿐만 아니라 인간-기계 협업 모델을 바꾸고 더 광범위한 인간-기계 통합을 가져올 것입니다. 생성 AI의 지능형 혁명은 지금까지 발전해 왔으며 인간-기계 협업의 세 가지 모드가 등장했습니다.

(1) 임베딩 모드. 사용자는 언어를 통해 AI와 소통하고 프롬프트 단어를 사용하여 목표를 설정하고 AI는 사용자가 이러한 목표를 달성할 수 있도록 지원합니다. 예를 들어 일반 사용자는 생성 AI에 프롬프트 단어를 입력하여 소설, 음악 작품, 3D 콘텐츠 등을 만듭니다. 이 모델에서 AI는 명령을 실행하는 도구로 기능하는 반면, 인간은 의사 결정자 및 명령자 역할을 합니다.

(2) 부조종사 모드. 이 모델에서 인간과 AI는 작업 프로세스에 참여하고 각자 역할을 수행하는 파트너에 가깝습니다. AI는 제안 제공부터 프로세스의 다양한 단계 지원에 이르기까지 워크플로에 개입합니다. 예를 들어, 소프트웨어 개발에서 AI는 프로그래머가 코드를 작성하고, 오류를 감지하고, 성능을 최적화하는 데 도움을 줄 수 있습니다. 인간과 AI는 이 과정에서 함께 협력하여 서로의 능력을 보완합니다. AI는 단순한 도구라기보다 지식이 풍부한 파트너에 가깝습니다.

실제로 마이크로소프트는 2021년 깃허브에서 처음으로 코파일럿(Copilot) 개념을 도입했다. GitHub Copilot은 개발자의 코드 작성을 지원하는 AI 서비스입니다. 2023년 5월 대형 모델 지원을 통해 Microsoft Copilot은 Dynamics 365 Copilot, Microsoft 365 Copilot 및 Power Platform Copilot 등을 출시하는 포괄적인 업그레이드를 시작했으며 "Copilot은 새로운 작업 방식입니다"라는 개념을 제안했습니다. 일과 마찬가지로 인생에도 '코파일럿'이 필요합니다. Mobvoi의 창립자인 Li Zhifei는 대형 모델에게 가장 적합한 직업은 인간을 위한 '코파일럿'이라고 믿습니다.

(3) 에이전트 모드. 인간이 목표를 설정하고 필요한 리소스(컴퓨팅 파워 등)를 제공하면 AI가 대부분의 작업을 독립적으로 수행하고 마지막으로 인간이 프로세스를 감독하고 최종 결과를 평가합니다. 이 모드에서 AI는 지능형 에이전트의 대화형, 자율적, 적응형 특성을 완전히 구현하고 독립적인 행위자에 가깝지만 인간은 감독자 및 평가자 역할을 더 많이 수행합니다.

인간과 AI가 협력하는 세 가지 방법[7]

에이전트의 네 가지 주요 모듈(기억, 계획, 행동 및 도구 사용)에 대한 이전의 기능 분석으로 판단하면 에이전트 모드는 의심할 여지 없이 임베디드 모드 및 부조종사 모드보다 효율적이며 인간 작업의 주요 모드가 될 수 있습니다. 미래의 기계 협업. .

Agent의 인간-기계 협업 모델을 기반으로 모든 평범한 개인이 슈퍼 개인이 될 수 있습니다. 슈퍼 개인은 자체 AI 팀과 자동화된 작업 흐름을 갖고 있으며, Agent를 기반으로 다른 슈퍼 개인과 보다 지능적이고 자동화된 협업 관계를 구축합니다. 요즘에는 1인 기업과 슈퍼개인이 적극적으로 업계에 진출하고 있습니다. Github 플랫폼에는 GPTeam 프로젝트라는 에이전트를 기반으로 하는 자동화된 팀이 있습니다. GPTeam은 대규모 모델을 사용하여 여러 상담원에게 역할과 기능을 할당하고, 여러 상담원이 협력하여 미리 결정된 목표를 달성합니다. 예를 들어 Dev-GPT는 제품 관리자 에이전트, 개발자 에이전트, 운영 및 유지 관리 에이전트 및 기타 역할 부서를 포함하여 자동화된 개발과 운영 및 유지 관리를 위한 다중 에이전트 협업 팀입니다. 이 멀티 에이전트 팀은 스타트업 마케팅 회사의 정상적인 운영을 만나서 지원할 수 있는 1인 회사입니다. 또 다른 예는 세계 최초의 AI 프리랜서 플랫폼이라고 주장하는 NexusGPT입니다. [8] 이 플랫폼은 오픈 소스 데이터베이스에 다양한 AI 기본 데이터를 통합하고 특정 기술을 갖춘 800명 이상의 AI 에이전트를 보유하고 있습니다. 이 플랫폼에서는 디자이너, 컨설턴트, 영업 담당자 등 다양한 분야의 전문가를 찾을 수 있습니다. 고용주는 언제든지 이 플랫폼에서 AI 에이전트를 선택하여 다양한 작업을 완료하는 데 도움을 줄 수 있습니다.

AI 에이전트는 소프트웨어 게임의 규칙을 바꿀 것입니다

AI 인프라 홍보

AI 에이전트는 소프트웨어를 재정의하고 있습니다. Bill Gates는 AI Agent가 소프트웨어 산업을 완전히 전복시키고 소프트웨어 사용 방법과 소프트웨어 작성 방법에 영향을 미칠 것이라고 믿습니다. [9]

AI Agent는 소프트웨어 아키텍처의 패러다임을 프로세스 중심에서 목표 중심으로 전환할 것입니다. 기존 소프트웨어(APP 포함)는 미리 정의된 일련의 지침, 논리, 규칙 및 경험적 알고리즘을 통해 프로세스를 수정하여 소프트웨어 작동 결과가 사용자의 기대를 충족하는지 확인합니다. 즉, 사용자는 명령 논리에 따라 단계적으로 작동하여 달성합니다. 목표. 이러한 프로세스 중심의 소프트웨어 아키텍처는 높은 신뢰성과 확실성을 갖고 있습니다. 그러나 이러한 목표 지향적 아키텍처는 수직적 분야에만 적용할 수 있을 뿐 모든 분야에 보편적으로 적용할 수는 없기 때문에 표준화와 맞춤화의 균형을 어떻게 맞추느냐가 SaaS 업계 대면 과제 중 하나가 되었습니다.

소프트웨어 아키텍처 패러다임 마이그레이션[10]

AI 에이전트 패러다임은 원래 인간이 주도했던 기능 개발에서 AI를 주요 원동력으로 점차 옮겨가고 있다. 대규모 모델을 기술 인프라로, 에이전트를 핵심 제품 형태로 사용하여 기존 소프트웨어에서 사전 정의한 지침, 논리, 규칙 및 휴리스틱 알고리즘의 작업 계층 구조가 목표 지향 지능형 에이전트의 자율 생성으로 진화합니다. 이런 방식으로 원래 아키텍처는 제한된 범위의 작업만 해결할 수 있지만 미래 아키텍처는 무한한 영역의 작업을 해결할 수 있습니다. [11] 미래의 소프트웨어 생태계에서는 최상위 계층이 Agent를 통해 모든 사람과 상호 작용할 뿐만 아니라 기반 기술, 비즈니스 모델, 중간 구성 요소, 심지어 사람들의 생활 습관 및 행동까지 전체 산업의 발전이 이루어질 것입니다. Agent를 둘러싼 모든 변화, 이제 Agent 중심 시대의 시작입니다. [12]

RPA 패러다임(Robotic Process Automation)과 APA 패러다임(Agentic Process Automation)의 비교 [13]

Mianbi Intelligence가 출시한 최초의 "대형 모델 + 에이전트" SaaS 수준 제품인 ChatDev 지능형 소프트웨어 개발 플랫폼을 예로 들어 보겠습니다. 이 플랫폼은 CEO, CTO, 개발 관리자, 제품 관리자, 테스트 전문가, 감독자 등 다양한 에이전트 역할을 갖춘 AI 에이전트로만 구성된 소프트웨어 개발 회사와 같습니다. 사용자는 CEO 역할을 맡은 Agent에게 명확한 요구 사항을 말하기만 하면 CEO는 사용자의 요구 사항에 따라 전체 소프트웨어 개발 프로세스를 구성합니다. 사용자에게 최종적으로 제공되는 것은 소프트웨어 제품과 개발 프로세스 전반에 걸친 코드를 포함하며, 모든 프로세스는 자동화됩니다. [14] 이를 통해 소프트웨어 산업은 생산 비용을 절감하고, 사용자 정의 기능을 향상시키며, 소프트웨어의 "3D 프린팅" 시대로 들어갈 수 있습니다.

AI Agent의 전망과 과제

AI 에이전트는 인공지능이 인프라화되는 중요한 원동력이다. 기술개발의 역사를 되돌아보면 기술의 종말은 인프라가 되는 것이다.예를 들어 전기는 공기처럼 사람이 쉽게 알아채지 못하지만, 클라우드 컴퓨팅처럼 꼭 필요한 인프라가 되었다. 물론 이는 혁신 및 개발 단계 - 새로운 기술이 발명되어 적용되기 시작하는 단계, 대중화 및 응용 단계 - 기술이 성숙함에 따라 다양한 분야에서 널리 사용되기 시작하여 심오한 의미를 갖기 시작하는 세 단계를 거치게 됩니다. 사회와 경제에 미치는 영향 인프라 단계 - 기술이 거의 모든 곳에 보급될 정도로 일반화되면 일종의 인프라로 변모하여 사람들의 일상생활에 없어서는 안 될 부분이 됩니다. 인공지능이 미래 사회의 인프라가 될 것이라는 점에는 거의 모든 사람이 동의합니다. 그리고 에이전트는 인공지능 인프라를 주도하고 있습니다. 이는 Agent 소프트웨어 제작 비용이 저렴하다는 장점뿐만 아니라, Agent가 다양한 작업과 환경에 적응할 수 있고 성능을 학습하고 최적화할 수 있어 다양한 분야에서 활용이 가능하기 때문이며, 다양한 산업과 사회활동의 기반이 됩니다 기본지원

인공지능 에이전트 응용 개요[15]

에이전트는 다음 단계에서 동시에 양방향으로 반복할 수 있습니다. 첫 번째는 도구 속성에 중점을 두고 다양한 작업을 수행하여 인간을 보조하는 지능형 에이전트이고, 두 번째는 독립적인 의사 결정, 장기 기억 및 특정 성격과 유사한 특성을 갖춘 의인화 방향의 반복으로, 인간과 유사하거나 초인적인 속성에 대해.

기술적 최적화 반복 및 구현의 관점에서 볼 때 AI 에이전트 개발에는 다음과 같은 병목 현상도 있습니다.

우선, OpenAI의 GPT를 통해 LLM의 복잡한 추론 기능이 충분히 강력하지 않고 지연이 너무 높아 Agent 애플리케이션의 진정한 성숙을 방해한다는 것을 알 수 있습니다. 이는 또한 업계의 엔지니어링 최적화 및 기술 연구의 차세대 혁신을 위한 방향이기도 합니다.

둘째, 멀티 에이전트 개발은 여전히 큰 어려움에 직면해 있습니다. 멀티 에이전트는 매우 복잡한 학문적 연구 방향으로, 에이전트가 대중 시장으로 확산되기 시작하면서 중요한 기술적 현실 문제가 되고 있습니다. 예를 들어 Stanford의 가상 마을에는 25명의 에이전트가 포함된 다중 에이전트 연구가 포함되어 있습니다. 그러나 개발자 테스트에 따르면 타운 프레임 오픈 소스로 공개된 후 에이전트는 많은 메모리와 행동 사고가 필요하기 때문에 하루에 20달러의 토큰을 소비해야 합니다. 이 가격은 많은 인간 작업자의 가격보다 높으며 에이전트 프레임 와 LLM 추론 측면의 후속 이중 최적화가 필요합니다.

멀티 에이전트의 개발 딜레마를 극복하는 것은 미래 에이전트 사회를 구축하기 위한 중요한 전제 조건입니다. 다중 에이전트 협업은 기술 사회 시스템의 최고 형태인 지능 사회를 형성할 수 있습니다. 지능형 사회는 복잡하고 역동적이며 자기 조직화되고 적응력이 뛰어나며 협업, 경쟁 및 지속적인 진화가 가능합니다. 이러한 사회 시스템에서 지능형 에이전트는 목표와 환경 변화에 따라 복잡하고 유연한 작업을 수행할 수 있으며, 인간 및 기타 지능형 에이전트와 높은 수준의 다차원적인 상호 작용 및 협업을 수행할 수 있습니다. 지능사회는 인간이 물리적 세계와 가상세계를 탐색하고 확장하는 데 도움을 줄 뿐만 아니라 인간의 능력과 경험을 향상시키고 확장시킨다.

동시에 이러한 개발 추세는 AI Agent가 보안 및 개인 정보 보호, 윤리 및 책임, 경제적 및 사회적 고용 영향 등과 같은 많은 문제에 직면할 수 있음을 나타냅니다.

(1) 보안 및 개인정보 보호는 지능형 에이전트의 핵심 기능으로, 안정적인 운영과 사용자 및 사회 보호에 매우 중요합니다. 이 두 가지 요소는 AI 에이전트의 신뢰와 제어에 직접적인 영향을 미칩니다. AI 에이전트에 취약점이나 공격, 데이터 유출 등이 있을 경우 사용자나 사회에 피해를 줄 수 있다. 일례로 OpenAI의 GPT 출시 직후 보안 취약점이 발생해 사용자가 업로드한 데이터가 유출되는 일이 발생했다.

(2) 윤리와 책임은 지능형 에이전트의 핵심 원칙으로, 가치와 목표를 결정하고 사용자와 사회에 대한 존중과 보호를 결정합니다. 이러한 원칙은 에이전트의 신뢰성과 제어 가능성에 직접적인 영향을 미칩니다. 지능형 에이전트가 불공평성, 불투명성, 신뢰성 저하 등의 문제를 보이면 사용자나 사회가 기술을 거부하게 될 수 있습니다. 책임 귀속은 지능형 에이전트의 핵심 문제이기도 하며, 인간과 지능형 에이전트 간의 협력에서 불명확하거나 불공정한 책임 귀속도 심각한 결과를 초래할 수 있습니다.

(3) 경제적, 사회적 고용 영향. 미래 작업에서 중요한 과제는 인간과 에이전트 간의 경쟁입니다. 예를 들어 AI 프리랜서 플랫폼인 NexusGPT의 등장은 기존 프리랜서들에게도 영향을 미치고 있다. 미래의 사회복지 협력에서는 점점 더 많은 지능형 에이전트가 나타날 것이며, 효율성과 효과성을 고려하여 고용주는 인적 투자를 줄이려고 노력할 수 있습니다. 에이전트 기술이 성숙해짐에 따라 우리는 이러한 기술 개발이 사회와 개인 경력에 미치는 장기적인 영향을 미리 생각해야 합니다.

ChatGPT가 분수령으로 출시되면서 글로벌 프리랜서 플랫폼의 글쓰기/편집 실무자의 수와 수입이 절벽과 같은 감소세를 보였습니다.[16]

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트