Nền tảng nào có thể tạo ra AI Agent tốt nhất? Chúng tôi đã kiểm tra ChatGPT, Claude, Gemini và các nền tảng khác
So sánh năm nền tảng hàng đầu, tiết lộ nền tảng nào phù hợp nhất để lưu trữ AI Agent của bạn trong các tình huống hàng ngày.
AI Agent có thể thực hiện nhiều việc: từ tìm kiếm thông tin trong kho tài liệu của bạn, viết mã, thu thập dữ liệu từ trang web, đến phân tích sâu và đưa ra những hiểu biết về dữ liệu phức tạp, thậm chí là nhiều hơn thế. Bạn thậm chí có thể tạo ra một văn phòng ảo,由由một nhóm các AI Agent chuyên về các nhiệm vụ khác nhau, làm việc phối hợp như một đội nhân viên số chuyên nghiệp.
Nhưng điều này có khó không? Nếu một người bình thường muốn tạo ra một cố vấn tài chính AI của riêng mình, ví dụ, không phụ thuộc vào API, không cần mã lạ, không cần Github, thì nền tảng nào có thể cung cấp hỗ trợ tốt nhất cho người dùng? Chúng tôi chỉ muốn xem những công ty AI hàng đầu này hoạt động như thế nào trong việc giúp người dùng bình thường tạo ra AI Agent, mà không cần kỹ năng kỹ thuật cao.
Tất nhiên, bạn nhận được bao nhiêu thì bạn phải trả bấy nhiêu. Trong trường hợp này, chúng tôi cũng muốn xem xem mức độ dễ dàng để một người bình thường thiết lập một Agent và chất lượng kết quả mà mỗi nền tảng cung cấp có liên quan với nhau hay không.
Thí nghiệm của chúng tôi so sánh năm nền tảng hàng đầu: ChatGPT, Claude, Huggingface, Mistral AI và Gemini. Mỗi nền tảng đều nhận được cùng một hướng dẫn cơ bản, yêu cầu tạo ra một cố vấn tài chính.
Các bài kiểm tra tập trung vào khả năng sẵn sàng sử dụng của các nền tảng. Chúng tôi chú trọng vào việc liệu Agent có thể xử lý một tình huống phổ biến - trong trường hợp này, giúp ai đó cân bằng 25.000 USD đầu tư và 30.000 USD nợ. Chúng tôi cũng muốn xem khả năng của chúng trong việc phân tích biểu đồ giao dịch. Chúng tôi tránh sử dụng thêm công cụ để tăng năng suất của Agent, thay vào đó chúng tôi cố gắng áp dụng cách đơn giản nhất.
Tóm lại, dưới đây là những phát hiện và xếp hạng mô hình của chúng tôi:
Xếp hạng nền tảng
1)GPT của OpenAI (8,5/10)
- Độ khó thiết lập: 4/5
- Chất lượng kết quả: 4,5/5
ChatGPT là nền tảng cân bằng nhất, cung cấp các tùy chọn tạo Agent phức tạp, đồng thời có cả tùy chọn hướng dẫn và tùy chỉnh thủ công, đáp ứng nhu cầu của người dùng hoàn toàn mới và có một số kinh nghiệm.
Mặc dù bản cập nhật giao diện gần đây đã ẩn một số chức năng trong menu, nhưng nền tảng này thể hiện xuất sắc trong việc chuyển đổi các yêu cầu phức tạp của người dùng thành Agent có chức năng. Chúng tôi đã xây dựng một cố vấn tài chính để kiểm tra mô hình này, kết quả cho thấy Agent có nhận thức bối cảnh xuất sắc và khả năng giải quyết vấn đề có cấu trúc, cung cấp chiến lược chi tiết và liên kết cho quản lý nợ và phân bổ đầu tư.
2) Google Gemini (7/10)
- Độ khó thiết lập: 4/5
- Chất lượng kết quả: 3/5
Gemini nổi bật với giao diện tinh tế, trực quan và khả năng xử lý lỗi xuất sắc. Mặc dù cần nhiều lời nhắc chi tiết hơn để đạt được kết quả tốt nhất, nhưng nó tạo ra kết quả nhất quán và có thể dự đoán được từ việc giải thích theo nghĩa đen các chỉ dẫn.
Agent này khi cung cấp lời khuyên tài chính nhấn mạnh việc thu thập ngữ cảnh trước khi đưa ra khuyến nghị, tương tự như thực hành chuyên nghiệp. Tuy nhiên, nó có thể quá bảo thủ trong các phản hồi không có mẫu.
3) HuggingChat (6,5/10)
- Độ khó thiết lập: 2/5
- Chất lượng kết quả: 4,5/5
Nền tảng nguồn mở này cung cấp các tùy chọn tùy chỉnh và lựa chọn mô hình không thể sánh được. Đối với những người tìm kiếm quyền kiểm soát chi tiết về mọi chi tiết, đây là một lựa chọn tuyệt vời, nhưng đối với những người tìm kiếm sự đơn giản, nó có thể không phù hợp. (Bạn có thể so sánh nó với hệ điều hành Linux và macOS). Khung thời gian phức tạp và tích hợp công cụ thiết thực của nó thể hiện khả năng tiên tiến của nó.
Chúng tôi đã xây dựng một Agent thuần túy, không có bất kỳ chức năng bổ sung nào. Chúng tôi đã sử dụng Nemomotron của Nvidia làm mô hình ngôn ngữ lớn cơ bản, chất lượng đầu ra của nó đủ để so sánh với ChatGPT. Đối với phong trào nguồn mở, không tệ.
4)Claude (5,5/10)
- Độ khó thiết lập: 2,5/5
- Chất lượng kết quả: 3/5
Nền tảng của Anthropic thể hiện xuất sắc trong các lĩnh vực cụ thể, đặc biệt là các nhiệm vụ yêu cầu xử lý ngữ cảnh lớn và phân tích mã. Giao diện giản lаi của nó che giấu khả năng phức tạp của nó, nhưng trường "Tùy chọn" có thể làm cho người dùng cảm thấy bối rối.
Agent của chúng tôi khi đưa ra lời khuyên rất bảo thủ và mơ hồ, nhưng thể hiện nhận thức rủi ro tốt và tư duy chiến lược. Nó cần những lời nhắc cẩn thận hơn để thực sự phát huy tiềm năng của nó, nhưng nếu bài kiểm tra sử dụng các lời nhắc thích ứng, điều này sẽ vi phạm giả định về các điều kiện tương tự, do đó không công bằng.
5) Mistral AI (5/10)
Độ khó thiết lập: 2,5/5
Chất lượng kết quả: 2,5/5
Nền tảng Pháp này cung cấp các tùy chọn học dựa trên ví dụ độc đáo và tùy chỉnh sâu. Tuy nhiên, giao diện hướng đến nhà phát triển và các vấn đề chuyển đổi ngôn ngữ thỉnh thoảng tạo ra rào cản đối với người dùng không phải kỹ thuật. Nó cũng cần phải điều chỉnh cấu hình Agent để phù hợp với các mô hình khác nhau thực hiện các nhiệm vụ khác nhau như phân tích hình ảnh hoặc xử lý mã. Điều này không lý tưởng.
Cố vấn tài chính thể hiện tiềm năng trong thiết kế tương tác, nhưng gặp khó khăn trong việc xác minh toán học cơ bản, kết quả đầu ra kém nhất. Không phải nói rằng đầu ra không tốt, nhưng trong kiểm tra zero-shot, đây là kết quả không hài lòng nhất.
Phân tích sâu
Xét đến xếp hạng trước đó, không có giải pháp phổ dụng, tất cả các nền tảng đều có ưu và nhược điểm riêng. Thông qua một số lời nhắc tập trung và cẩn thận, kết quả của một nền tảng có thể khác biệt, thậm chí vượt trội hơn các nền tảng khác. Cuối cùng, tất cả các mô hình ngôn ngữ lớn (LLM) đều có phong cách lời nhắc riêng.
Nếu bạn muốn tìm hiểu thêm về lý do đằng sau xếp hạng của chúng tôi, dưới đây là phân tích sâu hơn về kinh nghiệm và kết quả của Agent. Chúng tôi đã cấu hình tất cả các Agent với cùng một lời nhắc hệ thống, không có tham số hoặc chức năng bổ sung, và hỏi chúng cùng một câu hỏi cơ bản: "Tôi có 25K USD đầu tư và 30K USD nợ. Hãy lập một kế hoạch tài chính cho tôi."
OpenAI
Giao diện ChatGPT đã được cập nhật gần đây, thực sự làm cho hoạt động trở nên phức tạp hơn. Các tùy chọn tạo GPT hiện đã bị ẩn trong menu, nhưng một khi tìm thấy, nó cung cấp hai con đường: một là thiết lập theo kiểu hội thoại, với AI giúp xây dựng Agent của bạn; còn lại là cấu hình thủ công, phù hợp với những người chính xác biết họ muốn gì.
Nền tảng GPT của OpenAI là một "con dao thụt" đa năng - nó có thể đọc mã, tìm kiếm trang web, xử lý tạo và phân tích hình ảnh. Quá trình thiết lập do AI hướng dẫn đặc biệt phù hợp với người mới bắt đầu, mặc dù đối với người dùng nâng cao cần kiểm soát chi tiết, có thể cảm thấy bị hạn chế. (Ví dụ: nếu bạn yêu cầu mô hình cụ thể hơn hoặc chi tiết hơn, nó có thể thay đổi toàn bộ lời nhắc hệ thống, dẫn đến kết quả tệ hơn.)
Khi sử dụng Agent thực tế, ChatGPT rất trực tiếp, giao diện rõ ràng và dễ hiểu.
AI lớn (ChatGPT, Google Gemini, HuggingChat, Claude và Mistral AI) trong việc tạo AI đại diện." src="https://hx24-prod.mars-block.com/image/news/2025/01/06/1736096868876943.png">
Ở hậu trường, nó có các tính năng mạnh mẽ - tích hợp tìm kiếm trang web được hỗ trợ bởi Google, phân tích mã và xử lý hình ảnh, tương đương với các tính năng của ChatGPT, nhưng phần lớn dựa trên công nghệ của Microsoft.
Gemini có giao diện người dùng cảm thấy như được thiết kế bởi những người thực sự hiểu trải nghiệm người dùng. Giao diện hướng dẫn người dùng thông qua các thẻ rõ ràng, và tất cả thông tin đều có thể hiển thị trên một màn hình.
Cách tinh tế này khiến nó đặc biệt hấp dẫn với người dùng mới, mặc dù người dùng có kinh nghiệm có thể cảm thấy thiếu kiểm soát chi tiết hơn.
Chúng tôi đã đặt tên cho AI đại diện của mình là MoneyGem và yêu cầu nó cung cấp một kế hoạch tài chính. Phương pháp tư vấn của nó thể hiện cách tiếp cận độc đáo của Google trong giải quyết vấn đề. Nó không trực tiếp đưa ra câu trả lời, mà thay vào đó đặt các câu hỏi như "Đây là loại nợ gì?" và "Lãi suất của bạn là bao nhiêu?" - cho thấy nó hiểu rằng tư vấn tài chính không phải là một khuôn mẫu.
Nó nhấn mạnh việc thu thập thông tin nền tảng trước khi đưa ra lời khuyên, điều này phù hợp với thực tiễn lập kế hoạch tài chính chuyên nghiệp, mặc dù điều này có thể khiến những người tìm kiếm câu trả lời nhanh chóng cảm thấy thất vọng.
Một câu trả lời không có điều kiện không hữu ích. AI đại diện cơ bản cho biết nó không hiểu người dùng và không thể cung cấp lời khuyên tài chính tốt. Sau khi yêu cầu nó đưa ra giả định và buộc nó cung cấp một kế hoạch phù hợp với hầu hết các trường hợp, AI đại diện đã tạo ra một bản thảo kế hoạch rất bảo thủ, nhưng không cung cấp lời khuyên đầu tư cụ thể.
Tuy nhiên, MoneyGem cuối cùng đã đưa ra một lời khuyên là tối đa hóa các tài khoản ưu đãi thuế như 401(k) hoặc Roth IRA để giảm gánh nặng thuế. Không tệ.
Bạn có thể nhấp vào đây để xem cuộc tương tác của chúng tôi với MoneyGem và thử nghiệm mô hình này bằng cách nhấp vào liên kết này.
Mistral AI
Quá trình cấu hình AI đại diện của Mistral hơi phức tạp, xa rời tính đơn giản. Công cụ tạo AI đại diện được ẩn trong bảng điều khiển dành cho nhà phát triển của họ, có nhiều tùy chỉnh sâu, có thể khiến người mới bắt đầu cảm thấy bối rối, nhưng lại khiến những người thích thử nghiệm cảm thấy phấn khích.
Giao diện tạo AI đại diện không phải là một phần của LeChat (giao diện trò chuyện), nhưng một khi AI đại diện được tạo xong, nó sẽ xuất hiện ở đó.
Một điều chúng tôi rất thích là khả năng định hình hành vi và phong cách phản hồi của AI đại diện thông qua các mẫu đầu vào, một tính năng hiện chưa được cung cấp bởi các nền tảng khác. Tuy nhiên, có một lỗi kỳ lạ: khi tạo AI đại diện, giao diện người dùng đột nhiên chuyển sang tiếng Pháp, có lẽ do công ty có nguồn gốc Pháp. Dù sao, chúng tôi không thể chuyển lại sang tiếng Anh hoặc Tây Ban Nha.
Một khi AI đại diện được tạo, người dùng phải gọi nó trong giao diện trò chuyện bình thường để sử dụng. Người dùng cần thoát khỏi Le Plateforme, vào Le Chat, không phải là thao tác trực quan nhất. Tuy nhiên, giao diện sử dụng AI đại diện khá trực tiếp, cảm thấy giống như các trợ lý AI trò chuyện khác.
Chúng tôi đã tạo AI đại diện của mình và đặt tên là Le Money, để tôn vinh nguồn gốc Pháp của Mistral. Màn trình diễn của nó rõ ràng thể hiện phương pháp giải quyết vấn đề chung của Mistral. Nó đề xuất "để lại 10.000 USD làm quỹ dự phòng, sử dụng 15.000 USD để trả nợ, và đầu tư 10.000 USD", nghe có vẻ trực tiếp, nhưng cũng cho thấy AI đại diện này thiếu một số kiểm tra toán học cơ bản.
Tổng số 35.000 USD vượt quá số tiền có sẵn 10.000 USD, đây là một lỗi cơ bản, một số mô hình ngôn ngữ lớn có thể mắc phải khi ưu tiên tính chính xác về khái niệm hơn là tính chính xác về số liệu.
Tuy nhiên, chúng tôi phải lưu ý rằng các LLM có hiệu suất tốt nhất đã có những cải thiện đáng kể và không mắc phải lỗi như vậy thường xuyên - ít nhất là không thường xuyên như Mistral.
Ngoài ra, kế hoạch của Le Money không quá chi tiết, nhưng nó là AI đại diện duy nhất đưa ra các câu hỏi tiếp theo, giúp tương tác trở nên liền mạch hơn và giúp nó hiểu nhu cầu của người dùng tốt hơn.
Bạn có thể xem kế hoạch đầy đủ của LeMoney tại đây, và thử nghiệm AI đại diện này tại đây.
Anthropic
Dự án Claude không cảm thấy như một nền tảng tạo AI đại diện, mà giống như một hệ thống thực thi nhiệm vụ phức tạp. Giao diện tối giản, gần như quá tối giản và không quá trực quan.
Giao diện tối giản này có thể khiến một số người dùng cảm thấy bối rối. Nền tảng cung cấp một cài đặt cơ bản và có một trường "tùy chọn" cho hướng dẫn, cảm thấy vừa không quan trọng vừa rất quan trọng: nếu hướng dẫn được đánh dấu là tùy chọn, thì AI đại diện sẽ biết phải làm gì?
Giao diện tối giản của nó cảm thấy hơi kỳ lạ, nhưng Anthropic không bao giờ nổi tiếng
Đây là trải nghiệm có thể tùy chỉnh nhất trong tất cả các giao diện, với nhiều cài đặt có thể điều chỉnh. Kết quả là, nền tảng này có thể tạo ra các đại lý mạnh mẽ và chuyên nghiệp hơn so với đối thủ cạnh tranh, nhưng chỉ khi được sử dụng bởi những người hoàn toàn hiểu cách vận hành.
Người dùng có thể thử nghiệm các đại lý của họ trên HuggingChat - không nghi ngờ gì, đây là giấc mơ của những người dùng nâng cao. Một khi đại lý được tạo ra, việc sử dụng rất đơn giản. Giao diện hiển thị một thẻ lớn chứa tên, mô tả và ảnh của đại lý. Nó cũng cho phép người dùng chia sẻ liên kết của đại lý và điều chỉnh cài đặt của nó, tất cả đều có thể được thực hiện trực tiếp trên thẻ.
Sau khi đưa đại lý HuggingMoney của chúng tôi vào kiểm tra, chúng tôi nhận thấy cách nó xử lý các khung thời gian thể hiện sự hiểu biết sâu sắc hơn về tâm lý lập kế hoạch tài chính. Nó chia kế hoạch thành "ngắn hạn (0-24 tháng), trung hạn (24-60 tháng) và dài hạn (trên 60 tháng)", phù hợp với thực tiễn lập kế hoạch tài chính chuyên nghiệp.
Đại lý đề xuất "đầu tư $0-$5,000 vào các công cụ có thanh khoản cao, rủi ro thấp" và duy trì khoản thanh toán nợ hàng tháng từ "$1,000-$1,500". Lời khuyên này ban đầu cho thấy sự hiểu biết chi tiết về quản lý dòng tiền.
Một đặc điểm thú vị khác là nó kết hợp các công cụ thực tế với các lời khuyên lý thuyết. Ngoài việc đề xuất quy tắc 50/30/20, nó cũng giới thiệu các ứng dụng ngân sách cụ thể và nhấn mạnh tối ưu hóa thuế - tạo ra một cây cầu giữa chiến lược cấp cao và thực thi hàng ngày. Nhược điểm chính? Nó đưa ra giả định về lãi suất nợ mà không tìm kiếm xác nhận.
Để cung cấp lời khuyên hữu ích, nó đã quá vội vàng giả định nhiều điều. Vấn đề này, tức là bản năng muốn cung cấp phản hồi dù sao đi nữa, có thể được giải quyết bằng cách sử dụng lời nhắc chính xác hơn, nhưng đây là điều cần lưu ý.