Bạn có thể làm bất cứ điều gì với các tác nhân AI: tìm kiếm thông tin trong thư viện tài liệu của bạn, xây dựng mã, thu thập dữ liệu từ web, có được những hiểu biết và phân tích sâu sắc về dữ liệu phức tạp, và nhiều hơn thế nữa. Bạn thậm chí có thể tạo ra một văn phòng ảo với một nhóm các tác nhân chuyên về các nhiệm vụ khác nhau và để họ làm việc tay đôi như những nhân viên kỹ thuật số chuyên môn của riêng bạn.
Vậy việc này khó đến mức nào? Nếu một người bình thường muốn xây dựng cố vấn tài chính AI của riêng họ, thì nền tảng nào sẽ phục vụ họ tốt nhất? Không có API, không có mã lạ, không có Github - chúng tôi chỉ muốn xem các công ty AI hàng đầu có thành thạo trong việc tạo ra các tác nhân AI mà không cần người dùng có kỹ năng kỹ thuật cao.
Tất nhiên, bạn nhận được những gì bạn trả tiền. Trong trường hợp này, chúng tôi cũng muốn xem liệu có sự tương quan giữa việc dễ dàng thiết lập một tác nhân cho một người dân thường và chất lượng kết quả mà mỗi nền tảng cung cấp.
Thí nghiệm của chúng tôi đã đối đầu với năm ông lớn: ChatGPT, Claude, Huggingface, Mistral AI và Gemini. Mỗi nền tảng đều nhận được cùng một hướng dẫn cơ bản để tạo ra một cố vấn tài chính.
Bài kiểm tra tập trung hoàn toàn vào các khả năng sẵn có. Liệu các tác nhân có khả năng xử lý một kịch bản phổ biến - trong trường hợp này, giúp ai đó cân bằng 25.000 USD đầu tư với 30.000 USD nợ. Chúng tôi cũng muốn xem họ tốt đến mức nào trong việc phân tích biểu đồ giao dịch. Chúng tôi đã tránh sử dụng các công cụ bổ sung sẽ tăng năng suất của các tác nhân và thay vào đó cố gắng áp dụng cách tiếp cận đơn giản nhất.
TL;DR Đây là những gì chúng tôi đã tìm thấy và cách chúng tôi xếp hạng các mô hình:
ChatGPT là nền tảng cân bằng nhất, cung cấp việc tạo tác nhân tinh vi với cả tùy chọn hướng dẫn và thủ công để đáp ứng nhu cầu của những người mới hoàn toàn và những người dùng có kinh nghiệm hơn một chút.
Trong khi bản cập nhật giao diện gần đây đã chôn vùi một số tính năng trong các menu, nền tảng này xuất sắc trong việc chuyển đổi các yêu cầu phức tạp của người dùng thành các tác nhân chức năng. Chúng tôi đã kiểm tra mô hình bằng cách xây dựng một cố vấn tài chính thể hiện khả năng nhận thức ngữ cảnh và khả năng giải quyết vấn đề có cấu trúc vượt trội, cung cấp các chiến lược chi tiết nhưng nhất quán cho việc quản lý nợ và phân bổ đầu tư.
Gemini nổi bật với giao diện trực quan, dễ sử dụng và xử lý lỗi xuất sắc của nó. Mặc dù yêu cầu các lời nhắc chi tiết hơn để đạt được kết quả tối ưu, cách diễn giải theo nghĩa đen các hướng dẫn của nó tạo ra kết quả nhất quán và có thể dự đoán được.
Phương pháp tư vấn của tác nhân đối với lời khuyên tài chính nhấn mạnh việc thu thập ngữ cảnh trước khi đưa ra khuyến nghị, phản ánh các thực hành chuyên nghiệp. Tuy nhiên, nó có thể quá bảo thủ trong các phản hồi zero-shot của mình.
Nền tảng nguồn mở cung cấp các tùy chọn tùy chỉnh và lựa chọn mô hình không giới hạn. Điều này tuyệt vời cho những người tìm kiếm sự kiểm soát chi tiết từng khía cạnh, nhưng không thực sự dành cho những người tìm kiếm sự đơn giản. (Hãy nghĩ về nó như so sánh một hệ thống Linux với một macOS). Khung thời gian tinh vi và tích hợp công cụ thực tế của nó thể hiện các khả năng nâng cao.
Chúng tôi đã xây dựng một tác nhân thuần túy mà không có bất kỳ chức năng bổ sung nào. Chúng tôi đã sử dụng Nemomotron của Nvidia làm mô hình LLM cơ bản, và nó đủ tốt để khớp với ChatGPT về chất lượng đầu ra. Không tệ cho phân khúc nguồn mở.
Nền tảng của Anthropic xuất sắc trong các lĩnh vực cụ thể, đặc biệt là các nhiệm vụ yêu cầu xử lý ngữ cảnh rộng lớn và diễn giải mã. Giao diện tối giản của nó che giấu các khả năng tinh vi, nhưng trường "tùy chọn" có thể làm nhầm lẫn người dùng.
Tác nhân của chúng tôi vẫn rất bảo thủ và mơ hồ trong lời khuyên của mình, nhưng thể hiện nhận thức rủi ro và tư duy chiến lược vững chắc. Nó yêu cầu các lời nhắc cẩn thận hơn để thực sự khai thác tiềm năng của nó, nhưng sẽ không công bằng khi một bài kiểm tra điều chỉnh lời nhắc, phủ nhận cơ sở của việc giả định các điều kiện tương tự.
Nền tảng Pháp cung cấp các tùy chọn học tập dựa trên ví dụ và tùy chỉnh sâu. Tuy nhiên, giao diện hướng về nhà phát triển và các vấn đề chuyển đổi ngôn ngữ tạm thời tạo ra rào cản đối với người dùng không phải kỹ thuật. Nó cũng yêu cầu phải sửa đổi cấu hình của tác nhân sang các mô hình khác nhau để thực hiện các nhiệm vụ khác nhau như phân tích hình ảnh hoặc xử lý mã. Điều này không lý tưởng.
Cố vấn tài chính đã thể hiện tiềm năng trong thiết kế tương tác, nhưng gặp khó khăn với việc xác thực toán học cơ bản và cung cấp kết quả tệ nhất. Điều này không có nghĩa là kết quả đầu ra tệ, nhưng trong một bài kiểm tra zero-shot, đây là kết quả ít hài lòng nhất.
Xét đến xếp hạng trước đó, không có giải pháp phù hợp với mọi người và tất cả các nền tảng đều có ưu và nhược điểm riêng. Với một chút cống hiến và tùy chỉnh lời nhắc cẩn thận, kết quả từ một nền tảng có thể thay đổi và vượt qua cả nhóm. Cuối cùng, tất cả các mô hình LLM đều có phong cách lời nhắc riêng của họ.
Nếu bạn muốn biết thêm về lý do đằng sau việc xếp hạng của chúng tôi, đây là một cái nhìn sâu hơn về trải nghiệm và kết quả mà các tác nhân của chúng tôi đạt được. Chúng tôi đã cấu hình tất cả các tác nhân của mình với cùng một lời nhắc hệ thống, không có tham số hoặc chức năng bổ sung, và hỏi họ cùng một câu hỏi cơ bản: "Tôi có 25.000 USD để đầu tư và nợ 30.000 USD. Hãy xây dựng một kế hoạch tài chính cho tôi."
Giao diện ChatGPT gần đây đã được làm mới, thực sự làm cho mọi thứ phức tạp hơn. Tùy chọn tạo GPT giờ đây ẩn sau các menu, nhưng một khi được tìm thấy, nó cung cấp hai con đường: một thiết lập hội thoại nơi AI giúp xây dựng tác nhân của bạn, và một cấu hình thủ công dành cho những người biết chính xác những gì họ muốn.
Nền tảng GPT của OpenAI là một con dao Thụy Sĩ đa năng - nó đọc mã, tìm kiếm trên web và xử lý cả tạo và phân tích hình ảnh. Quá trình thiết lập hướng dẫn bằng AI đặc biệt phù hợp với những người mới bắt đầu, mặc dù nó có thể cảm thấy hạn chế đối với những người dùng cao cấp tìm kiếm sự kiểm soát chi tiết. (Ví dụ: Nếu bạn nhắc mô hình cụ thể hơn hoặc chi tiết hơn, nó có thể thay đổi toàn bộ lời nhắc hệ thống, cho bạn kết quả tệ hơn.)
Khi sử dụng tác nhân, ChatGPT rất đơn giản và giao diện sạch sẽ và dễ hiểu.
Các tác nhân có thể đọc tài liệu và hiểu hình ảnh một cách bản địa, điều này mang lại lợi thế so với các nền tảng khác.
Bây giờ, hãy nói về chất lượng của các tác nhân bạn có thể tạo ra với các lời nhắc cơ bản. Cố vấn tài chính của chúng tôi có tên là MoneyGPT khá ấn tượng, mang lại cho chúng tôi một bài học về giải quyết vấn đề có cấu trúc.
Ngoài việc phân bổ chính xác - "20.000 USD để trả nợ lãi suất cao" và các danh mục đầu tư chi tiết - tác nhân đã thể hiện sự suy luận tài chính tinh vi. Nó cung cấp một lộ trình 5 bước không chỉ là một danh sách, mà là một chiến lược nhất quán tính đến cả nhu cầu cấp thiết và các yếu tố dài hạn.
Điểm mạnh của tác nhân nằm ở khả năng cân bằng giữa chi tiết và ngữ cảnh. Trong khi đề xuất các khoản đầu tư cụ thể (40% S&P 500, 30% trái phiếu), nó cũng giải thích lý do đằng sau các phản hồi của mình: "Trả nợ lãi suất cao giống như thu được lợi nhuận đảm bảo." Nhận thức ngữ cảnh này mở rộng đến kế hoạch dài hạn, đề xuất các chu kỳ xem xét định kỳ và các chiến lược thích ứng dựa trên những thay đổi trong hoàn cảnh.
Tuy nhiên, sự dồi dào của thông tin này tiết lộ một điểm yếu tiềm ẩn: nguy cơ làm cho người dùng bị choáng ngợp bởi quá nhiều chi tiết một lúc. Mặc dù kỹ thuật toàn diện, việc giao phát nhanh chóng các khoản phân bổ cụ thể, chiến lược đầu tư và kế hoạch giám sát có thể gây ra khó khăn cho những người mới bắt
Người dùng có thể thử các tác nhân của họ trên HuggingChat - đây là giấc mơ của người dùng quyền lực. Một khi bạn tạo ra tác nhân, việc sử dụng nó rất đơn giản. Giao diện hiển thị một thẻ lớn với tên, mô tả và ảnh của Tác nhân. Nó cũng cho phép người dùng chia sẻ liên kết của tác nhân và điều chỉnh cài đặt của nó, tất cả đều từ thẻ. Đặt HuggingMoney's tác nhân của chúng tôi vào thử nghiệm cho thấy rằng nó xử lý một khung thời gian, hiển thị một sự hiểu biết tinh vi hơn về tâm lý lập kế hoạch tài chính. Việc chia thành "Ngắn hạn (0-24 tháng), Trung hạn (24-60 tháng) và Dài hạn (trên 60 tháng)" phản ánh các thực hành lập kế hoạch tài chính chuyên nghiệp. Tác nhân đề xuất phân bổ "$0-$5,000 vào các phương tiện thanh khoản, rủi ro thấp" trong khi duy trì các khoản thanh toán nợ tích cực "$1,000-$1,500 hàng tháng". Điều này, nhìn lại, là một dấu hiệu của sự hiểu biết tinh tế về quản lý dòng tiền. Một tính năng thú vị khác là sự tích hợp của các công cụ thực tế với lời khuyên lý thuyết. Ngoài việc chỉ đề xuất quy tắc 50/30/20, nó cũng đề xuất các ứng dụng quản lý ngân sách cụ thể và nhấn mạnh tối ưu hóa thuế - tạo ra một cầu nối giữa chiến lược cấp cao và thực hiện hàng ngày. Nhược điểm chính? Nó bao gồm các giả định về lãi suất nợ mà không tìm kiếm sự làm rõ. Trong nỗ lực cung cấp lời khuyên hữu ích, nó đưa ra quá nhiều điều được coi là đã được xác định. Điều này, sự thúc đẩy để cung cấp phản hồi bất kể điều gì, có thể được khắc phục bằng cách nhắc nhở, nhưng đây là điều cần cân nhắc. Bạn có thể đọc kế hoạch đầy đủ của HuggingMoney tại đây. Bạn cũng có thể thử nó bằng cách nhấp vào liên kết này. Được chỉnh sửa bởi Andrew Hayward




