哪個平台建構最好的人工智慧代理?我們測試 ChatGPT、Claude、 Gemini等

avatar
Decrypt
01-06
本文為機器翻譯
展示原文

您可以使用 AI 代理完成任何事情:在您的文件庫中搜索資訊、編寫程式碼、網頁抓取、對複雜資料進行深入分析,等等。您甚至可以建立一個虛擬辦公室,配備專門從事不同任務的代理,讓他們像您的專業數字員工一樣協同工作。

那麼,要做到這一點有多難呢?如果一個普通人想要建立自己的 AI 理財顧問,哪個平臺最適合他們?無需 API、奇怪的編碼或 Github,我們只想看看最好的 AI 公司在沒有使用者擁有高度技術技能的情況下,建立 AI 代理的能力有多強。

當然,付出多少就能得到多少。在這種情況下,我們也想看看普通人設定代理的難易程度,與每個平臺交付的結果質量之間是否存在相關性。

我們的實驗讓五大巨頭相互競爭:ChatGPT、Claude、Hugging Face、Mistral AI 和 Gemini。每個平臺都收到了相同的基本指令,去建立一個理財顧問。

這項測試專注於開箱即用的功能。代理是否能夠處理一個常見的場景——在這種情況下,幫助某人平衡 25,000 美元的投資和 30,000 美元的債務。我們還想看看它們在分析交易圖表方面的表現如何。我們避免使用會增加代理生產力的額外工具,而是嘗試採取最簡單的方法。

總之,這是我們的發現以及我們如何對這些模型進行排名:

ChatGPT 是最平衡的平臺,提供了複雜的代理建立功能,既有引導式選項,也有手動選項,可以滿足完全新手和稍有經驗使用者的需求。

儘管最近的介面更新將一些功能隱藏在選單中,但該平臺擅長將複雜的使用者需求轉化為功能性代理。我們透過構建一個理財顧問來測試該模型,它展示了出色的上下文意識和結構化的問題解決能力,為債務管理和投資分配提供了詳細而連貫的策略。

Gemini 以其精緻、直觀的介面和出色的錯誤處理能力脫穎而出。雖然需要更詳細的提示才能獲得最佳結果,但它對指令的字面解釋創造了一致、可預測的結果。

該代理的理財建議採取諮詢式方法,在提出建議之前強調收集背景資訊,這與專業做法相符。然而,它在零樣本響應中可能過於保守。

這個開源平臺提供了無與倫比的定製和模型選擇選項。這對於那些尋求對每一個細節都有絕對控制權的人來說很棒,但對於那些追求簡單性的人來說並不適合。(就像比較 Linux 系統和 macOS 一樣)。它的複雜時間框架和實用工具整合展示了先進的功能。

我們構建了一個純粹的代理,沒有任何額外的功能。我們使用 Nvidia 的 Nemomotron 作為基礎 LLM,它足以與 ChatGPT 媲美的輸出質量。對於開源陣營來說,這已經不錯了。

Anthropic 的平臺在特定領域表現出色,特別是那些需要廣泛上下文處理和程式碼解釋的任務。它的極簡介面掩蓋了複雜的功能,但"可選"的指令欄位可能會讓使用者感到困惑。

我們的代理在建議中保持非常保守和模糊,但展示了良好的風險意識和戰略思維。它需要更仔細的提示才能真正發揮其潛力,但在一個假設相似條件的測試中,調整提示是不公平的。

這個法國平臺提供了獨特的基於示例的學習和深度定製選項。然而,它面向開發者的介面和偶爾的語言切換問題為非技術使用者創造了障礙。它還需要修改代理的配置以使用不同的模型來執行不同的任務,如分析影象或處理程式碼。這並不理想。

這個理財顧問在互動設計方面顯示出潛力,但在基本數學驗證方面存在困難,提供了最差的輸出。這並不意味著輸出很差,但在一個零樣本測試中,這是最不令人滿意的。

考慮到前面的排名,沒有一種一刀切的解決方案,所有平臺都有各自的優缺點。透過一些努力和仔細的提示定製,一個平臺的結果可能會有所不同,甚至超過其他平臺。最終,所有的 LLM 都有自己獨特的提示風格。

如果您想了解我們排名背後的原因,這裡有一個更深入的看看我們的經歷和代理的結果。我們為所有代理配置了相同的系統提示,沒有任何額外的引數或功能,並問他們同樣的基本問題:"我有 25,000 美元可投資,同時還有 30,000 美元的債務。為我制定一個財務計劃。"

ChatGPT 的介面最近進行了一次整修,實際上使事情變得更加複雜。GPT 建立選項現在隱藏在選單後面,但一旦找到,它提供了兩條路徑:一種是對話式設定,AI 會幫助您構建代理;另一種是手動配置,適合那些確切知道自己想要什麼的人。(例如,如果您提示模型更具體或更詳細,它可能會改變整個系統提示,給您帶來更差的結果。)

在實際使用代理方面,ChatGPT 非常簡單明瞭,介面乾淨易懂。

代理可以本地讀取文件和理解影象,這相比其他平臺來說是一個優勢。

現在,讓我們談談使用基本提示建立的代理的質量。我們的理財顧問 MoneyGPT 相當出色,為我們上了一堂結構化問題解決的精華課。

除了它精確的分配——"20,000 美元用於高利率債務"和詳細的投資組合分配——該代理還展示了複雜的財務推理。它提供了一個五步驟的路線圖,不僅僅是一個列表,而是一個考慮了即時需求和長期考慮因素的連貫策略。

該代理的優勢在於它能夠在細節和上下文之間保持平衡。在推薦具體投資(40% 標準普爾 500 指數,30% 債券)的同時,它還解釋了其響應背後的原因:"償還高利率債務就像獲得了投資回報的保證。"這種上下文意識延伸到了長期規劃,建議定期審查週期和根據不斷變化的情況調整策略。

然而,這種資訊豐富也暴露了一個潛在的弱點:可能會讓使用者感到不知所措,因為過多的細節一次性湧入。雖然在技術上是全面的,但具體分配、投資策略和監控計劃的快速傳遞可能會讓財務新手感到不知所措。

您可以在這裡閱讀它的完整計劃,並可以透過點選此連結使用它。我們真心推薦它。

總的來說,Google 的 Gemini 代理建立平臺在美觀性方面勝出,擁有精緻、直觀的介面,使代理建立感覺幾乎太容易了。該系統會嚴格按照指令行事,這有助於避免混淆,而它的簡潔 UI 也消除了 AI 開發的威懾因素。

然而,它需要更詳細的提示才能擠出一些好的結果。它不會輕易接受:簡短的提示將得到低質量的響應。

在引擎蓋下,它擁有強大的實力——Google 驅動的網路搜尋整合、程式碼分析和影象處理功能,可與 ChatGPT 的產品相媲美,但主要依賴於微軟的技術。

Gemini 的 UI 感覺是由真正理解使用者體驗的人設計的。介面以清晰的標籤引導使用者,所有內容都顯示在一個螢幕上。

這種精緻的方法特別吸引新手,儘管有經驗的使用者可能會想要更細粒度的控制。

我們將我們的代理命名為 MoneyGem,並要求提供一份財務計劃。它的諮詢方法展示了 Google 獨特的問題解決方法。它沒有直接給出答案,而是先提出諸如"是什麼型別的債務?"和"利率是多少?"之類的問題——顯示出它理解財務建議並非一刀切。

它在提供建議之前強調收集背景資訊的做法與專業財務規劃實踐相一致,儘管可能會讓急於求成的使用者感到沮喪。

一個零樣本答案並不有用。該代理基本上說它不瞭解使用者的情況,無法提供良好的財務建議。在要求它做出假設並迫使它提供一個可適用於大多數情況的計劃後,該代理生成了一個非常保守的計劃草案,但沒有給出具體的投資建議。

不過,MoneyGem 在結尾建議最大限度地利用 401(k) 或羅斯 IRA 等稅收優惠賬戶來減輕稅收負擔。不錯。

您可以點選這裡閱讀我們與 MoneyGem 的互動,並透過點選此連結自行嘗試該模型。

Mistral 的代理配置過程方法有些遠離簡單。代理建立工具隱藏在其開發者控制檯中,擁有可能會嚇退新手但令修改者欣喜的深度定製選項。

它的代理構建介面不是 LeChat(聊天機器人介面)的一部分,而是在代理建立後才會出現在那裡。

我們真正喜歡的一點是,該工具可以接受示例來塑造代理的行為和響應風格——這是其他平臺目前無法提供的。另外,這裡有一個奇怪的錯誤:在建立我們的代理時,UI 突然切換到了法語,可能是因為該公司是法國公司。不管怎樣,我們無法切換回英語或西班牙語。

一旦建立了代理,使用者必須在普通的聊天機器人介面中呼叫它才能使用。他們必須退出 Le Plateforme 並進入 Le Chat,這並不是最直觀的做法。然而,使用代理的介面相當簡單明瞭,感覺就像任何其他 AI 聊天機器人一樣。

我們構建了我們的代理,並將其命名為 Le Money,以紀念 Mistral 的法國根源。它的表現明顯反映了 Mistral 的通用問題解決方法。它建議"拿出 10,000 美元作為應急基金,15,000 美元用於償還債務,10,000 美元用於投資"的建議看起來很直接,但顯示代理缺乏一些基本的數學驗證。

35,000 美元的總額超出了可用資金 10,000 美元,這是一個基本錯誤,一些語言模型在優先考慮概念正確性而非數值準確性時會犯這種錯誤。

然而,我們必須指出,表現最佳的 LLM 已經大幅改進,不會經常犯這種錯誤。

除此之外

使用者可以在HuggingChat上嘗試他們的代理 - 這無疑是重度使用者的夢想。一旦建立了代理,使用它非常簡單。介面顯示了一個大卡片,上面有代理的名稱、描述和照片。它還允許使用者分享代理的連結並調整其設定,所有這些都可以從卡片上完成。

將我們的HuggingMoney代理投入測試,顯示它處理時間框架,展現了更復雜的財務規劃心理學理解。它將其分解為"短期(0-24個月)、中期(24-60個月)和長期(60個月以上)"的做法,反映了專業財務規劃實踐。

該代理建議將"0-5,000美元"投入到流動性低風險工具中,同時保持每月1,000-1,500美元的積極債務償付。這從表面上看是對現金流管理的細緻理解。

另一個有趣的特點是它將實用工具與理論建議相結合。除了建議使用50/30/20規則外,它還推薦了具體的預算應用程式,並強調了稅收最佳化 - 在高層戰略和日常執行之間架起了橋樑。主要缺點?它包含關於債務利率的假設,而沒有尋求澄清。

為了提供有用的建議,它過於輕易地接受了許多事情。這種不管什麼都要回復的衝動是可以透過提示來修復的,但也是需要考慮的問題。

您可以在這裡閱讀HuggingMoney的完整計劃。您也可以透過點選此連結來嘗試。

Andrew Hayward編輯

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
2
評論