Vượt qua GPT-5 và Gemini Deep Research, nhà phân tích tài chính AI của Đại học Nhân dân Hillhouse còn thành thạo trong phân tích dữ liệu, tạo biểu đồ và viết báo cáo nghiên cứu.

Bài viết này được dịch máy
Xem bản gốc

Các chuyên gia phân tích tài chính AI có khả năng tự động truy xuất dữ liệu, viết báo cáo phân tích và tạo ra các biểu đồ tài chính chuyên nghiệp đã xuất hiện!

Gần đây, Trường Trí tuệ Nhân tạo Gaoling thuộc Đại học Nhân dân Trung Quốc đã đề xuất một hệ thống tạo báo cáo nghiên cứu đa phương thức cho các kịch bản nghiên cứu đầu tư tài chính thực tế - Yulan-FinSight .

Đối diện nhu cầu nghiên cứu của người dùng, FinSight có thể tự động phân chia nhiệm vụ, thu thập dữ liệu đa dạng từ nhiều nguồn khác nhau , bao gồm giá cổ phiếu, báo cáo tài chính và tin tức, từ Internet và các cơ sở dữ liệu tài chính, và tạo ra báo cáo đồ họa dài 10.000 từ với các chương như "Lịch sử phát triển", "Kiến trúc việc kinh doanh cốt lõi" và "Cảnh quan cạnh tranh".

Hệ thống này cũng giành vị trí đầu tiên trong số 1.289 đội tham gia cuộc thi AFAC 2025 Financial Intelligence Innovation Competition Challenge Group , và vượt qua GPT-5 w/Search, OpenAI Deep Research và Gemini-2.5-Pro ​​​​Deep Research trong nhiều bài đánh giá, chứng minh khả năng phân tích và viết báo cáo tài chính gần bằng với các chuyên gia con người.

Hãy xem chi tiết bên dưới.

Tại sao trí tuệ nhân tạo tổng quát không thể tạo ra các báo cáo nghiên cứu tài chính tốt?

Các nhà nghiên cứu tin rằng vấn đề cốt lõi không phải là mô hình "không thể viết", mà là báo cáo nghiên cứu trong ngành tài chính có cấu trúc rất chặt chẽ, logic nghiêm ngặt và trực quan hấp dẫn, là những tác phẩm chuyên gia cấp cao liên quan đến nhiều quy trình.

So với nhiệm vụ trả lời câu hỏi, truy xuất thông tin hoặc tạo văn bản thông thường, nghiên cứu đầu tư tài chính đặt ra yêu cầu cao hơn về khả năng tích hợp dữ liệu, độ sâu phân tích và định dạng diễn đạt.

Cụ thể, các hệ thống trí tuệ nhân tạo đa năng hiện có chủ yếu đối mặt với ba thách thức:

1. Sự thiếu kết nối giữa kiến ​​thức chuyên môn và dữ liệu:

Các hệ thống tìm kiếm đa năng gặp khó khăn trong việc tích hợp hiệu quả dữ liệu tài chính có cấu trúc như giá cổ phiếu và báo cáo tài chính với thông tin phi cấu trúc như tin tức và thông báo. Do thiếu cơ chế biểu diễn dữ liệu thống nhất và cơ chế phân tích cộng tác đa tác nhân, các hệ thống này thường chỉ thực hiện xử lý hời hợt trên các nguồn thông tin đơn lẻ, gây khó khăn trong việc tạo ra những hiểu biết tài chính có hệ thống.

2. Thiếu khả năng hiển thị hình ảnh chuyên nghiệp:

Các báo cáo nghiên cứu tài chính phụ thuộc rất nhiều vào biểu đồ để truyền tải thông tin có mật độ cao, nhưng các mô hình hiện có chỉ có thể tạo ra hình ảnh tĩnh hoặc biểu đồ đường đơn giản, khó đáp ứng nhu cầu trực quan hóa tài chính chuyên nghiệp như so sánh đa chiều và chú thích sự kiện. Ngoài ra, còn thiếu các ràng buộc chặt chẽ về tính nhất quán dữ liệu giữa văn bản và biểu đồ, chẳng hạn như văn bản và biểu đồ không liên quan hoặc thông tin mâu thuẫn và xung đột.

3. Thiếu khả năng "nghiên cứu lặp đi lặp lại":

Hầu hết các hệ thống vẫn sử dụng quy trình cố định "tìm kiếm trước, tạo ra sau", và một khi hướng nghiên cứu đã được xác định, rất khó để điều chỉnh.

Ngược lại, các nhà phân tích con người thường điều chỉnh trọng tâm nghiên cứu dựa trên những phát hiện trung gian, và khả năng điều chỉnh chiến lược một cách linh hoạt dựa trên kết quả trung gian này chính là điều mà các hệ thống trí tuệ nhân tạo tổng quát hiện có thường thiếu.

Ý tưởng cốt lõi của FinSight: Làm việc như một nhà phân tích tài chính.

Để khắc phục những hạn chế này, FinSight không chỉ đơn thuần "xếp chồng các mô hình", mà thay vào đó bắt đầu từ các quy trình nhận thức, mô phỏng phương pháp làm việc của các chuyên gia tài chính con người, và đề xuất ba cải tiến công nghệ then chốt.

Kiến trúc cốt lõi: Kiến trúc tác nhân thông minh dựa trên mã lệnh, với bộ nhớ thay đổi.

Cốt lõi của FinSight là kiến ​​trúc đa tác tử mới có tên gọi Bộ nhớ biến đổi điều khiển bằng mã (Code-Driven Variable-Memory - CAVM).

Như hình minh họa, kiến ​​trúc Agent hiện tại về cơ bản vẫn bị hạn chế bởi mô hình bộ nhớ hội thoại, sử dụng lịch sử như tin nhắn hoặc tiến trình nhiệm vụ làm phương tiện truyền tải trạng thái. Mô hình này dễ bộc lộ những điểm nghẽn về cấu trúc trong khả năng diễn đạt và kiểm soát khi độ phức tạp nhiệm vụ và độ dài quy trình tăng trưởng.

CAVM tái cấu trúc mô hình này thành một không gian bộ nhớ biến đổi được điều khiển bằng mã. Hệ thống không còn sử dụng đối thoại ngôn ngữ tự nhiên làm phương tiện cộng tác, mà thay vào đó ánh xạ dữ liệu, công cụ và kết quả suy luận trung gian thành các biến chương trình có thể đọc và ghi, với nhiều Code Agent hoàn thành quá trình suy luận cộng tác bằng cách chia sẻ không gian biến.

Bằng cách nâng tầm "bộ nhớ" từ một chuỗi thông điệp thành một cấu trúc biến có thể vận hành, CAVM cho phép mô hình hóa rõ ràng nhiệm vụ phức tạp, liên tục sửa đổi và kết hợp mô-đun-đun, cung cấp sự hỗ trợ cấu trúc cần thiết cho quá trình suy luận đa tiến trình cấp chuyên gia dài hạn .

Trong thiết kế này, dữ liệu, công cụ và tác nhân được trừu tượng hóa một cách thống nhất vào một không gian biến có thể lập trình:

Báo cáo tài chính, dữ liệu thị trường và văn bản tin tức được sử dụng làm biến dữ liệu.

Khả năng tìm kiếm, phân tích và lập biểu đồ được sử dụng như các biến công cụ.

Các tác nhân với các chức năng khác nhau được lên lịch và phối hợp với nhau thông qua mã Python.

Thiết kế "hướng đến mã nguồn" này cho phép hệ thống xử lý hiệu quả lượng lớn dữ liệu tài chính đa dạng và hỗ trợ sự hợp nhiệm vụ phức tạp giữa nhiều quy trình.

Đột phá về hình ảnh: Cơ chế tăng cường hình ảnh lặp đi lặp lại

Để giải quyết các vấn đề thường gặp về tính chuyên nghiệp và độ tin cậy trong việc tạo biểu đồ tài chính, các nhà nghiên cứu đã đề xuất Cơ chế Tăng cường Thị giác Lặp lại (Iterative Vision-Enhanced Mechanism ), mô hình hóa quá trình vẽ như một bài toán tạo hình ảnh được tối ưu hóa lặp đi lặp lại.

Cơ chế này áp dụng mô hình hợp tác giữa Người hành động và Người phê bình :

Mô hình văn bản, đóng vai trò là Tác nhân (Actor ), chịu trách nhiệm tạo ra mã vẽ có thể biên dịch và thực thi, tận dụng tối đa lợi thế của nó trong việc tạo mã và kiểm soát logic; trong khi mô hình ngôn ngữ trực quan, đóng vai trò là Nhà phê bình (Critic) , trực tiếp kiểm tra hình ảnh từ góc độ trực quan, cung cấp phản hồi về các khía cạnh như tính toàn vẹn dữ liệu và tính thẩm mỹ tổng thể.

Điểm mấu chốt của thiết kế này nằm ở những thế mạnh bổ sung cho nhau : mô hình ngôn ngữ xuất sắc trong việc mã hóa và tư duy, nhưng gặp khó khăn trong việc thu được phản hồi trực quan thực tế; mô hình trực quan sở hữu khả năng nhận thức và phân biệt mạnh mẽ, nhưng bị hạn chế trong việc tạo ra mã phức tạp.

Bằng cách tách rời hai quá trình này và đặt chúng vào một vòng lặp kín, hệ thống liên tục tự tối ưu hóa thông qua nhiều vòng "tạo - đánh giá- hiệu chỉnh" trong suốt thời gian thử nghiệm , nhờ đó chất lượng bản vẽ tự nhiên được cải thiện theo số lần lặp.

Tóm lại, hệ thống có thể tạo ra các biểu đồ tài chính chuyên nghiệp một cách đáng tin cậy, bao gồm căn chỉnh trục kép, chú thích sự kiện và các cấu trúc phức tạp, như thể hiện trong hình, chuyển đổi các kết quả tĩnh ban đầu được tạo ra trong một lần thành một quy trình mở rộng quy mô trong quá trình thử nghiệm .

Khung viết gồm hai giai đoạn: phân tích trước, rồi mới viết.

Ở cấp độ viết báo cáo, FinSight không cố gắng tạo ra một báo cáo nghiên cứu dài hoàn chỉnh trong một lần, mà thay vào đó tái cấu trúc việc viết báo cáo nghiên cứu thành một quy trình hai giai đoạn "phân tích-tích hợp" .

Đầu tiên, hệ thống tạo ra một tập hợp "Chuỗi phân tích" (CoA): mỗi Chuỗi phân tích tương ứng với một nhiệm vụ phụ cụ thể (như lịch sử công ty, phân tích tài chính, phân tích đối thủ cạnh tranh, các yếu tố rủi ro, v.v.), hoàn thành việc thu thập bằng chứng, đưa ra các phán đoán chính và trích xuất các kết luận cốt lõi trong phạm vi cục bộ.

Bước này là cần thiết vì một báo cáo nghiên cứu thường bao gồm nhiều vấn đề phụ liên kết với nhau. Nếu một bài báo dài được viết liền mạch từ đầu đến cuối, sẽ rất khó để đảm bảo tính chính xác và độ sâu của tất cả các phân tích.

Tiếp theo, hệ thống sử dụng các CoA này như một "khung sườn" để tổ chức và sắp xếp các thông tin chi tiết rải rác ở cấp độ toàn cầu, tạo ra dàn ý và viết từng chương một: đồng thời đảm bảo tính mạch lạc của cấu trúc chương và chuỗi lập luận, nó điều chỉnh mô tả văn bản, trích dẫn dữ liệu và trình bày biểu đồ, và cuối cùng tổng hợp chúng thành một báo cáo dài có tính logic nhất quán.

Chiến lược "phân tích trước, rồi mới viết" này giúp tránh hiệu quả vấn đề thường gặp về tính logic lỏng lẻo trong các bài viết dài, đảm bảo báo cáo vẫn mạch lạc về cấu trúc và lập luận sâu sắc ngay cả khi chúng vượt quá 20.000 từ.

Để đảm bảo hơn nữa tính chính xác của dữ liệu và sự nhất quán giữa văn bản và hình ảnh trong báo cáo nghiên cứu dài, các tác giả cũng đã giới thiệu một cơ chế truy xuất tạo sinh trong giai đoạn viết bài.

Khác với phương pháp xử lý hậu kỳ truyền thống "truy xuất trước, rồi mới tạo", phương pháp này tích hợp quá trình truy xuất vào chính quá trình viết: khi tạo các đoạn văn cụ thể, mô hình sẽ tự động tạo ra các mã định danh chỉ mục cho dữ liệu và hình ảnh dựa trên Chuỗi phân tích hiện tại và ngữ cảnh viết, sau đó tích hợp chúng một cách đồng nhất thông qua quá trình xử lý hậu kỳ.

Bằng cách này, độ chính xác của các trích dẫn và tính nhất quán giữa văn bản và hình ảnh được đảm bảo ở mức cao nhất.

Bằng cách này, FinSight có thể liên tục đồng bộ hóa các đoạn văn bản, nguồn dữ liệu và kết quả trực quan hóa trong quá trình viết các báo cáo dài, tránh các vấn đề thường gặp như sai lệch về mặt thực tế và sự không nhất quán giữa văn bản và đồ họa. Kết quả là, nó có thể duy trì tính ổn định và nhất quán của logic tổng thể và Chuỗi bằng chứng ngay cả khi độ dài của báo cáo tiếp tục mở rộng .

Kết quả thực nghiệm: Vượt trội hoàn toàn vượt qua các hệ thống nghiên cứu chuyên sâu hiện có.

Các tác giả đã tiến hành đánh giá có hệ thống về FinSight dựa trên các tiêu chuẩn chất lượng cao, bao gồm cả nghiên cứu về doanh nghiệp và ngành.

Kết quả cho thấy FinSight vượt trội hơn hẳn Gemini -2.5-Pro ​​Deep Research và OpenAI Deep Research ở cả ba chỉ báo lõi: độ chính xác về mặt thực tế, độ sâu phân tích và chất lượng trình bày, đạt điểm tổng thể là 8.09 .

Về khả năng trực quan hóa, nhờ cơ chế cải thiện hình ảnh lặp đi lặp lại, FinSight đạt điểm số 9.00 , vượt trội đáng kể so với hệ thống so sánh và thể hiện sự cải thiện hiệu quả trong khả năng tạo ra các biểu đồ tài chính chuyên nghiệp.

Kết quả phân tích đồ thị lặp đi lặp lại cũng ấn tượng không kém:

Trong các trường hợp tạo văn bản dài, các báo cáo nghiên cứu do hệ thống tạo ra có độ dài trung bình hơn 20.000 từ, bao gồm hơn 50 biểu đồ và các tham chiếu dữ liệu có cấu trúc, và chất lượng báo cáo vẫn ổn định khi độ dài tăng trưởng mà không bị suy giảm đáng kể.

Hơn nữa, tại Cuộc thi Sáng tạo Trí tuệ Tài chính AFAC 2025, FinSight đã xếp hạng nhất trong số 1.289 đội tham gia đến từ các doanh nghiệp và trường đại học, giành chức vô địch ở Câu hỏi số 4 của Nhóm Thử thách, qua đó chứng minh tính thực tiễn và độ tin cậy của nó trong các tình huống thực tế.

Các nhà nghiên cứu cho rằng rằng FinSight không chỉ là một công cụ tài chính, mà còn thể hiện tiềm năng của kiến ​​trúc tác nhân trong các lĩnh vực chuyên ngành phức tạp.

Bằng cách thống nhất dữ liệu, công cụ và các tác nhân thông minh, đồng thời giới thiệu một vòng lặp khép kín nhiều giai đoạn gồm hình ảnh và văn bản, hệ thống AI đã lần đầu tiên chứng minh khả năng phân tích gần như con người trong kịch bản "chuyên sâu về chuyên gia" của nghiên cứu đầu tư tài chính.

Ý nghĩa của mô hình này vượt ra ngoài phạm vi tài chính.

Điều này cho thấy rằng trong các tình huống "chuyên sâu" đòi hỏi kiến ​​thức chuyên môn, khả năng suy luận dài hạn và biểu diễn đa phương thức, các hệ thống AI không còn chỉ đơn thuần là những công cụ tổng hợp thông tin, mà đang bắt đầu đảm nhận những vai trò tương tự như các chuyên gia con người.

Quá trình này bao gồm việc phân tích vấn đề, kiểm chứng giả thuyết, điều chỉnh kết luận và cuối cùng là đưa ra một kết quả hoàn chỉnh và có thể truy vết.

Từ góc nhìn này, FinSight giống như một điểm khởi đầu hơn .

Khi kiến ​​trúc Agent tiếp tục hoàn thiện, các lĩnh vực phức tạp như phân tích nghiên cứu khoa học, phán quyết pháp lý và ra quyết định y tế có thể dần mở ra một thế hệ năng suất mới tập trung vào các Agent AI cấp chuyên gia.

Tác giả bài báo và dự án: Đại học Nhân dân Trung Quốc, Trường trí tuệ nhân tạo Gaoling: Jin Jiajie, Zhang Yuyao, Xu Yimeng, Qian Hongjin, Zhu Yutao, Dou ZhiThành

Link bài báo: https://arxiv.org/abs/2510.16844

Liên kết mã nguồn: https://github.com/RUC-NLPIR/FinSight

Bài viết này được đăng tải từ tài khoản chính thức WeChat "Quantum Bit" , do đội ngũ FinSight biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận