Anthropic은 AI 에이전트가 당신의 컴퓨터를 제어하기를 원합니다

avatar
WIRED
10시간 전
이 기사는 기계로 번역되었습니다
원문 표시

사람들이 자신만의 마음을 가진 것처럼 보이는 채팅봇이라는 개념에 적응하는 데에는 시간이 걸렸습니다. 미지의 세계로 향하는 다음 도약은 우리의 컴퓨터를 인공지능에 맡기는 것일 수 있습니다.

Anthropic, OpenAI의 강력한 경쟁자, 오늘 자사의 AI 모델 Claude가 웹 검색, 애플리케이션 실행, 마우스와 키보드를 사용한 텍스트 입력 등 다양한 컴퓨터 작업을 수행할 수 있게 되었다고 발표했습니다.

"모델이 사람이 사용하는 모든 도구를 활용하여 작업을 수행할 수 있는 새로운 시대가 열릴 것이라고 생각합니다." 라고 Anthropic의 최고 과학 책임자이자 Johns Hopkins University 부교수인 Jared Kaplan은 말했습니다.

Kaplan은 WIRED에 Claude의 "도구 사용" 버전이 친구와 함께 골든게이트 브리지에서 일출을 보러 가는 계획을 세우는 모습이 담긴 시연 영상을 보여주었습니다. 요청에 따라 Claude는 Chrome 웹 브라우저를 열고 Google에서 관련 정보를 검색한 뒤, 달력 앱을 사용하여 친구와 공유할 일정을 만들었습니다(최단 경로 등 추가 지침은 포함되지 않았습니다).

두 번째 시연에서 Claude는 자신을 홍보할 간단한 웹사이트를 만들라는 요청을 받았습니다. 기이한 순간이었지만, 모델은 자신의 웹 인터페이스에 텍스트 프롬프트를 입력하여 필요한 코드를 생성했습니다. 그리고 Microsoft가 개발한 인기 코드 편집기 Visual Studio Code를 사용하여 간단한 웹사이트를 작성하고, 텍스트 터미널을 열어 간단한 웹 서버를 실행하여 사이트를 테스트했습니다. 결과물은 1990년대 풍의 괜찮은 랜딩 페이지였습니다. 사용자가 웹사이트의 문제를 수정하라고 요청하자, 모델은 다시 편집기로 돌아가 문제가 있는 코드 조각을 찾아 삭제했습니다.

Anthropic의 최고 제품 책임자 Mike Krieger는 이러한 소위 "AI 에이전트"가 일상적인 사무 작업을 자동화하고 사람들이 다른 영역에서 더 생산적일 수 있게 해줄 것이라고 말했습니다. "복사 붙여넣기 같은 작업을 없앤다면 어떤 일을 할 수 있을까요? 저는 기타를 더 연습할 것 같습니다."

Anthropic은 오늘부터 자사의 가장 강력한 멀티모달 대형 언어 모델인 Claude 3.5 Sonnet의 도구 사용 기능을 API를 통해 제공할 예정입니다. 또한 더 작은 모델인 Claude 3.5 Haiku의 새로운 버전도 발표했습니다.

AI 에이전트의 시연은 놀라워 보일 수 있지만, 실제 생활에서 안정적이고 짜증나거나 비용이 많이 드는 오류 없이 기술을 수행하는 것은 과제입니다. 현재 모델은 인간과 유사한 수준의 질문 답변 및 대화 능력을 보유하고 있으며, OpenAI의 ChatGPT와 Google의 Gemini와 같은 채팅봇의 기반이 되고 있습니다. 또한 간단한 명령으로 컴퓨터 화면, 키보드, 트랙패드 등의 입력 장치 및 저수준 소프트웨어 인터페이스에 접근하여 작업을 수행할 수 있습니다.

Anthropic에 따르면 Claude는 소프트웨어 개발 기술을 측정하는 SWE-bench와 컴퓨터 운영 체제 사용 능력을 평가하는 OSWorld 등 주요 벤치마크에서 다른 AI 에이전트를 능가한다고 합니다. 그러나 이러한 주장은 아직 독립적으로 검증되지 않았습니다. Anthropic에 따르면 Claude는 OSWorld에서 작업을 14.9% 정확하게 수행하는데, 이는 일반적으로 75% 정도를 기록하는 인간에 비해 낮지만, OpenAI의 GPT-4와 같은 현재 최고의 에이전트들이 약 7.7% 정도 성공하는 것에 비해 훨씬 높은 수준입니다.

Anthropic은 이미 여러 기업들이 Claude의 도구 사용 버전을 테스트하고 있다고 밝혔습니다. 이 중에는 디자인 및 편집 작업을 자동화하는 데 활용하고 있는 Canva와 코딩 작업에 활용하고 있는 Replit이 포함됩니다. 기타 초기 사용자로는 The Browser Company, Asana, Notion 등이 있습니다.

Ofir Press Princeton University 박사후 연구원은 도구 사용 AI가 장기적인 계획 능력이 부족하고 오류에서 벗어나기 어려운 경우가 많다고 말했습니다. "그들이 유용하다는 것을 보여주려면 까다롭고 현실적인 벤치마크에서 강력한 성과를 거둬야 합니다." 그는 사용자를 위한 다양한 여행을 안정적으로 계획하고 필요한 모든 티켓을 예약하는 것과 같은 과제를 예로 들었습니다.

Kaplan은 Claude가 이미 놀라울 정도로 오류를 잘 해결한다고 말했습니다. 예를 들어 웹 서버 실행 시 터미널 오류가 발생하면 명령을 수정하여 문제를 해결할 수 있었고, 웹 브라우징 중 막다른 상황에 부딪혔을 때는 팝업을 활성화하는 방법을 찾아냈습니다.

많은 기술 기업들이 시장 점유율과 위상을 높이기 위해 AI 에이전트 개발에 박차를 가하고 있습니다. 사실 곧 많은 사용자들이 손쉽게 에이전트를 사용할 수 있게 될 것 같습니다. 130억 달러 이상을 OpenAI에 투자한 Microsoft는 Windows 컴퓨터를 사용할 수 있는 에이전트를 테스트하고 있습니다. Anthropic에 많은 투자를 한 Amazon도 에이전트가 고객을 위해 상품을 추천하고 구매할 수 있는 방법을 모색하고 있습니다.

AI 기업에 주목하는 벤처 캐피털 Sequoia의 파트너 Sonya Huang은 AI 에이전트에 대한 열기에도 불구하고 대부분의 기업들이 단순히 AI 기반 도구에 새로운 이름을 붙이고 있다고 말했습니다. Anthropic 소식 전에 WIRED와의 인터뷰에서 그녀는 현재 기술이 코딩 관련 작업과 같은 좁은 영역에서 가장 잘 작동한다고 말했습니다. "모델이 실패해도 괜찮은 문제 영역을 선택해야 합니다. 그런 문제 영역에서 진정한 에이전트 기반 기업이 등장할 것입니다."

도구 사용 AI의 핵심 과제는 채팅봇의 답변 오류보다 훨씬 더 심각할 수 있다는 점입니다. Anthropic은 예를 들어 신용카드 사용 제한 등 Claude의 기능에 일정한 제한을 두었습니다.

오류를 충분히 방지할 수 있다면, Princeton University의 Press는 사용자들이 AI와 컴퓨터를 완전히 새로운 방식으로 바라볼 수 있게 될 것이라고 말했습니다. "이 새로운 시대에 대해 매우 기대되고 있습니다."

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
1
코멘트