어떤 플랫폼이 최고의 AI 에이전트를 구축할까요? ChatGPT, Claude, 제미니(Gemini) 등을 테스트합니다.

01-06

이 기사는 기계로 번역되었습니다

원문 표시

에이프(Ape)는 어떤 일이든 할 수 있습니다: 문서 라이브러리에서 정보를 검색하고, 코드를 작성하며, 웹을 긁어 모으고, 복잡한 데이터에 대한 통찰력 있는 분석을 얻을 수 있습니다. 심지어 다양한 업무를 전문적으로 수행하는 에이전트들로 구성된 가상 사무실을 만들어 마치 자신의 디지털 직원들처럼 협력하게 할 수 있습니다.

그렇다면 이것을 어렵게 구현하는 것일까요? 일반인이 자신만의 GM(Good Morning) 금융 자문사를 만들고 싶다면 어떤 플랫폼이 가장 적합할까요? API도, 이상한 코딩도, GitHub도 필요 없습니다. 우리는 단순히 최고의 AI 기업들이 기술적 전문성이 높지 않은 사용자들도 에이전트를 만들 수 있게 하는지 보고 싶었습니다.

물론 대가를 치러야 합니다. 이 경우에도 우리는 일반인이 에이전트를 설정하기 쉬운 정도와 각 에이전트가 제공하는 결과의 품질 사이에 상관관계가 있는지 확인하고 싶었습니다.

우리의 실험에서는 ChatGPT, Claude, 허깅페이스, 미스트랄 AI, 제미니(Gemini)가 서로 경쟁했습니다. 각 플랫폼에 금융 자문사를 만들라는 기본적인 지침을 제공했습니다.

이 테스트는 순수한 기본 기능에 초점을 맞췄습니다. 에이전트들이 일반적인 시나리오, 즉 $25,000의 투자금과 $30,000의 부채를 관리하는 것을 얼마나 잘 처리할 수 있는지 확인했습니다. 또한 거래 차트 분석 능력도 평가했습니다. 에이전트의 생산성을 높일 수 있는 추가 도구는 사용하지 않고 가장 단순한 접근 방식을 취했습니다.

요약하면 다음과 같습니다:

ChatGPT는 가장 균형 잡힌 플랫폼으로, 초보자와 약간 더 경험 있는 사용자 모두의 요구 사항을 충족할 수 있는 안내된 옵션과 수동 옵션을 제공하는 정교한 에이전트 생성 기능을 제공합니다.

최근 인터페이스 업데이트로 일부 기능이 메뉴에 숨겨졌지만, 복잡한 사용자 요구 사항을 기능적인 에이전트로 변환하는 데 탁월합니다. 우리는 이 모델을 테스트하여 부채 관리와 투자 배분을 위한 자세하고 일관된 전략을 제공하는 뛰어난 상황 인식과 구조화된 문제 해결 능력을 가진 금융 자문사를 만들었습니다.

제미니(Gemini)는 세련되고 직관적인 인터페이스와 뛰어난 오류 처리로 돋보입니다. 최적의 결과를 얻기 위해서는 더 자세한 프롬프트가 필요하지만, 지침을 문자 그대로 해석하여 일관되고 예측 가능한 결과를 만들어냅니다.

에이전트의 금융 자문 접근 방식은 권장 사항을 제공하기 전에 상황을 파악하는 것을 강조하여 전문적인 관행을 반영합니다. 그러나 제로 샷 응답에서는 지나치게 보수적일 수 있습니다.

오픈 소스 플랫폼은 맞춤형 설정과 모델 선택 옵션이 가장 풍부합니다. 이는 모든 세부 사항을 세밀하게 제어하고자 하는 사용자에게 좋지만, 단순성을 원하는 사용자에게는 적합하지 않습니다. (Linux 시스템과 macOS를 비교하는 것과 같습니다.) 정교한 시간 지평 프레임워크와 실용적인 도구 통합을 통해 고급 기능을 보여줍니다.

추가 기능 없이 순수한 에이전트를 구축했습니다. Nvidia의 Nemomotron을 기반 LLM으로 사용했고, 출력 품질이 ChatGPT와 맞먹을 정도로 좋았습니다. 오픈 소스 진영에서는 나쁘지 않은 성과입니다.

앤트로픽의 플랫폼은 특히 광범위한 상황 처리와 코드 해석이 필요한 작업에서 두드러집니다. 미니멀리스트 인터페이스 뒤에 숨겨진 정교한 기능이 있지만, "선택 사항" 지침 필드는 사용자를 혼란스럽게 할 수 있습니다.

우리의 에이전트는 매우 보수적이고 모호한 조언을 제공했지만, 위험 인식과 전략적 사고력은 우수했습니다. 잠재력을 최대한 발휘하려면 더 세심한 프롬프팅이 필요하지만, 유사한 조건을 가정하는 테스트에서는 프롬프트를 조정하는 것은 공정하지 않습니다.

프랑스 플랫폼은 독특한 예제 기반 학습과 깊이 있는 맞춤형 옵션을 제공합니다. 그러나 개발자 중심의 인터페이스와 간헐적인 언어 전환 문제로 인해 비기술 사용자에게 장벽이 될 수 있습니다. 또한 이미지 분석이나 코드 처리와 같은 다양한 작업을 수행하려면 에이전트의 구성을 다른 모델로 수정해야 합니다. 이는 이상적이지 않습니다.

금융 자문사는 상호 작용 설계에서 잠재력을 보여주었지만 기본적인 수학적 검증에 어려움을 겪었고 가장 만족스럽지 않은 출력을 제공했습니다. 이것이 출력이 나쁘다는 뜻은 아니지만, 제로 샷 테스트에서는 가장 만족스럽지 않았습니다.

이전 순위를 고려할 때, 완벽한 솔루션은 없으며 모든 플랫폼에는 장단점이 있습니다. 약간의 노력과 세심한 프롬프트 사용자 정의로 한 플랫폼의 결과가 다른 플랫폼을 능가할 수 있습니다. 결국 모든 LLM은 고유한 프롬프팅 스타일을 가지고 있습니다.

순위 결정 근거에 대해 자세히 알고 싶다면 에이전트 경험과 결과에 대한 심층 분석을 확인하세요. 모든 에이전트에 동일한 시스템 프롬프트를 구성하고 추가 매개변수나 기능 없이 기본 질문 "투자금 $25K와 부채 $30K를 어떻게 관리할까요?"를 물었습니다.

ChatGPT의 인터페이스는 최근 개선되었지만 오히려 더 복잡해졌습니다. GPT 생성 옵션은 이제 메뉴에 숨겨져 있지만, 찾으면 대화형 설정과 수동 구성 두 가지 경로를 제공합니다. 전자는 AI가 에이전트 구축을 돕고, 후자는 정확히 무엇을 원하는지 아는 사용자에게 적합합니다. (예를 들어 모델에게 더 구체적이거나 더 자세하게 프롬프트하면 전체 시스템 프롬프트가 변경되어 더 나쁜 결과를 얻을 수 있습니다.)

실제 에이전트 사용에 있어 ChatGPT는 매우 간단하고 인터페이스가 깨끗하고 이해하기 쉽습니다.

에이전트는 문서를 읽고 이미지를 이해할 수 있어 다른 플랫폼에 비해 장점이 있습니다.

이제 기본 프롬프팅으로 만들 수 있는 에이전트의 품질에 대해 이야기해 보겠습니다. 우리가 만든 금융 자문사 MoneyGPT는 인상적이었고, 구조화된 문제 해결 능력을 보여주는 마스터클래스였습니다.

정확한 자산 배분("고금리 부채에 $20,000" 등)과 자세한 포트폴리오 분할 외에도, 에이전트는 정교한 금융 논리를 보여주었습니다. 단순한 목록이 아닌 즉각적인 요구와 장기적 고려 사항을 모두 고려한 일관된 5단계 로드맵을 제공했습니다.

에이전트의 강점은 세부 사항과 상황 인식의 균형에 있습니다. 특정 투자(S&P 500 40%, 채권 30%)를 권장하면서도 "고금리 부채 상환은 투자 수익과 같은 보장된 수익률을 얻는 것"과 같은 근거를 설명했습니다. 이러한 상황 인식은 장기 계획에도 적용되어 주기적인 검토 주기와 상황 변화에 따른 적응형 전략을 제안했습니다.

그러나 이러한 정보의 풍부함은 잠재적 약점을 드러냈습니다. 사용자를 한 번에 너무 많은 세부 사항으로 압도할 수 있습니다. 기술적으로는 포괄적이지만, 특정 자산 배분, 투자 전략, 모니터링 계획 등의 빠른 전달은 금융 초보자에게 부담이 될 수 있습니다.

전체 계획은 여기에서 확인할 수 있으며, 이 링크를 클릭하여 사용할 수 있습니다. 강력히 추천합니다.

전반적으로 구글의 제미니(Gemini) 에이전트 생성 플랫폼은 직관적인 인터페이스로 에이전트 생성을 너무 쉽게 느끼게 합니다. 시스템은 지침을 문자 그대로 해석하여 혼란을 방지하고, 깨끗한 UI는 AI 개발에 대한 위협감을 제거합니다.

그러나 좋은 결과를 얻으려면 더 자세한 프롬프트가 필요합니다. 당연한 것을 가정하지 않습니다. 짧은 프롬프트로는 저품질 응답만 얻을 수 있습니다.

내부적으로는 구글 검색 통합, 코드 분석, 이미지 처리 기능 등 ChatGPT 수준의 강력한 기능을 갖추고 있지만, 주로 Microsoft 기술에 의존합니다.

제미니의 UI는 사용자 경험을 이해하는 사람들이 설계한 것 같습니다. 인터페이스가 명확한 레

사용자들은 HuggingChat에서 에이전트를 시험해볼 수 있습니다. 에이전트를 만든 후에는 사용이 매우 간단합니다. 인터페이스에는 에이전트의 이름, 설명 및 사진이 큰 카드로 표시되며, 사용자가 에이전트의 링크를 공유하고 설정을 조정할 수 있습니다.

HuggingMoney's 에이전트를 테스트한 결과, 시간 프레임워크를 다루며 재무 계획 심리에 대한 더 정교한 이해를 보여줍니다. "단기(0-24개월), 중기(24-60개월), 장기(60개월 이상)"로 구분된 것은 전문적인 재무 계획 관행을 반영합니다.

에이전트는 "0-$5,000을 유동성 있고 저위험 수단에 배분"하는 동시에 "$1,000-$1,500의 공격적인 부채 상환"을 제안했습니다. 이는 현금 흐름 관리에 대한 섬세한 이해의 징표입니다.

또 다른 흥미로운 기능은 실용적인 도구와 이론적 조언을 통합한 것입니다. 50/30/20 규칙을 제안하는 것 외에도 특정 예산 앱을 추천하고 세금 최적화를 강조하여 높은 수준의 전략과 일상적인 실행 사이의 연결고리를 만들었습니다. 단점은 부채 이자율에 대한 확인 없이 가정을 포함한다는 것입니다.

유용한 조언을 제공하려는 노력에서 너무 많은 것을 당연한 것으로 간주합니다. 이는 프롬프트를 통해 해결할 수 있지만 고려해야 할 사항입니다.

여기에서 HuggingMoney의 전체 계획을 읽을 수 있습니다. 이 링크를 클릭하여 직접 시도해볼 수도 있습니다.

편집: Andrew Hayward

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트