能自動查數據、寫分析、畫專業金融圖表的AI金融分析師來了!
最近,中國人民大學高瓴人工智能學院提出了一個面向真實金融投研場景的多模態研報生成系統——玉蘭·融觀(Yulan-FinSight)。
面對用戶的研究需求,FinSight能夠自動拆解任務,從互聯網和金融數據庫中搜集包括股價、財報、新聞在內的多源異構數據,並生成包含“發展歷程”、“核心業務架構”、“競爭格局”等章節的萬字圖文報告。
△
該系統也在AFAC 2025 金融智能創新大賽挑戰組的1289支隊伍中奪冠,並在多項評測中超越了GPT-5 w/Search、OpenAI Deep Research與Gemini-2.5-Pro Deep Research,展現出接近人類專家的金融分析與寫作能力。
下面來看詳細內容。
為什麼通用AI做不好金融研報?
在研究者看來,問題的關鍵並不在於模型“不會寫字”,而在於金融行業的研究報告本身是一項高度結構化、強邏輯、強可視化的專家級工作,涉及多個流程。
相比通用問答、檢索或文本生成任務,金融投研對數據整合能力、分析深度以及表達形式均提出了更高要求。
具體而言,現有通用AI系統主要面臨三方面挑戰:
1、領域知識與數據割裂:
通用搜索系統難以有效整合股價、財務報表等結構化金融數據與新聞、公告等非結構化信息。由於缺乏統一的數據表示與多智能體協作分析機制,系統往往只能對單一信息源進行淺層處理,難以形成系統性的金融洞察。
2、專業級可視化能力缺失:
金融研報高度依賴圖表來傳遞高密度信息,但現有模型多隻能生成靜態圖片或簡單折線圖,難以支持多維對比、事件標註等專業金融可視化需求,圖文之間也缺乏嚴格的數據一致性約束,例如,圖文無關或圖文信息矛盾與衝突。
3、缺乏“迭代式研究”能力:
絕大多數系統仍採用固定的“先檢索—後生成”流程,研究路徑一旦確定便難以調整。
相比之下,人類分析師往往會根據中間發現不斷修正研究重點,而這種基於中間結果的動態策略調整能力,正是現有通用AI系統普遍欠缺的部分。
FinSight的核心思路:像金融分析師一樣工作
為突破上述限制,FinSight並未簡單地“堆模型”,而是從認知流程入手,模擬人類金融專家的工作方式,並提出了三項關鍵技術創新。
核心架構:代碼驅動的可變內存智能體架構
△
FinSight的底層採用了一種全新的、名為Code-Driven Variable-Memory(CAVM)的多智能體架構。
如圖所示,現有Agent 架構本質上仍受限於對話式記憶範式,即以消息或任務進度等歷史作為狀態載體。這一範式在任務複雜度與流程長度增長時,容易暴露出表達能力與可控性的結構性瓶頸。
CAVM將這一範式重構為代碼驅動的變量記憶空間。系統不再以自然語言對話作為協作媒介,而是將數據、工具與中間推理結果統一映射為可讀寫的程序變量,由多個Code Agent通過共享變量空間完成協同推理。
通過將“記憶”從消息序列提升為可操作的變量結構,CAVM 使複雜任務得以被顯式建模、持續修正與模塊化組合,為長時程、多流程的專家級推理提供了必要的結構支撐。
△
在這一設計中,數據、工具和智能體被統一抽象為可編程變量空間:
財務報表、行情數據、新聞文本作為數據變量
搜索、分析、繪圖等能力作為工具變量
不同功能的Agent通過Python代碼進行調度與協作
這種“以代碼為中樞”的設計,使系統能夠高效處理大規模異構金融數據,並支持複雜的多流程任務協作。
視覺突破:迭代式視覺增強機制
針對金融圖表生成中普遍存在的專業性與可信度問題,研究者們提出了Iterative Vision-Enhanced Mechanism,將繪圖過程建模為一個可迭代優化的視覺生成問題。
△
該機制採用了Actor–Critic 協作範式:
文本大模型作為Actor,負責生成可編譯、可執行的繪圖代碼,充分發揮其在代碼生成與邏輯控制上的優勢;而視覺語言模型則作為Critic,直接對圖像進行視覺層面的審視,從數完整性與整體美觀性等維度提供反饋。
這一設計的關鍵在於優勢互補:語言模型擅長編碼與思考,卻難以獲取真實的視覺反饋;視覺模型具備強大的感知與判別能力,但在複雜代碼生成上能力受限。
通過將二者解耦並置於閉環中,系統在test time通過多輪“生成—評估—修正”實現持續優化,使繪圖質量隨迭代次數自然提升。
△
最終,系統能夠穩定生成包含雙軸對齊、事件標註以及複雜結構的專業金融圖表,如圖所示,將原本一次性生成的靜態結果,轉化為一種test-time scaling的過程。
兩階段寫作框架:先分析,再成文
在寫作層面,FinSight並不試圖一次性生成完整的長篇研報,而是將研報寫作重構為“分析—整合”的兩階段過程。
△
首先,系統生成一組“分析鏈”(Chain-of-Analysis,CoA):每條分析鏈對應一個明確的子任務(如公司歷程、財務分析、競爭對手分析、風險因素等),在局部範圍內完成證據收集、關鍵判斷與核心結論提煉。
之所以需要這一步,是因為一份研究報告往往由多個子問題耦合構成,若直接端到端生成長文,很難兼顧所有的分析準確性和深度。
隨後,系統以這些CoA作為“骨架”,將分散的洞察在全局層面進行組織與編排,生成大綱並分章節逐步寫作:在保證章節結構與論證鏈條連貫的同時,把文本敘述、數據引用與圖表呈現進行對齊,最終合成為一份邏輯自洽的長篇報告。
這種“先分析、後寫作”的策略有效避免了長文常見的邏輯鬆散問題,使報告在篇幅超過2萬字時仍保持結構清晰、論證深入。
為了進一步保證長篇研報中的事實準確性與圖文一致性,作者在寫作階段還引入了一種生成式檢索(Generative Retrieval) 機制。
不同於傳統“先檢索、後生成”的後處理做法,該方法將檢索過程嵌入寫作本身:模型在生成具體段落時,會根據當前的分析鏈與寫作上下文,動態生成數據和圖片的索引標識符,再通過後處理統一嵌入。
這樣一來,引用準確性和圖文一致性得到了最大的保證。
△
通過這種方式,FinSight能夠在長篇寫作過程中持續對齊文本敘述、數據來源與可視化結果,避免常見的事實錯配與圖文脫節問題,從而在報告篇幅不斷擴展的情況下,依然保持整體邏輯與證據鏈的穩定性與一致性。
實驗結果:全面超越現有Deep Research系統
作者們在涵蓋公司研究與行業研究的高質量基準測試上,對FinSight進行了系統評估。
結果顯示,FinSight在事實準確性、分析深度與呈現質量三項核心指標上均顯著優於Gemini-2.5-Pro Deep Research與OpenAI Deep Research,綜合評分達到8.09。
在可視化維度上,得益於迭代式視覺增強機制,FinSight獲得9.00的評分,明顯領先對比系統,體現出對專業金融圖表生成能力的有效提升。
而迭代式繪圖的效果分析同樣驚豔:
在長文本生成場景中,系統生成的研報平均長度超過20000字,包含50餘張圖表與結構化數據引用,且隨著篇幅增長,報告質量保持穩定,未出現顯著退化。
此外,在AFAC 2025金融智能創新大賽中,FinSight在來自企業與高校的1289支參賽隊伍中排名第一,獲得挑戰組賽題四冠軍,進一步驗證了其在真實場景中的實用性與魯棒性。
研究者認為,FinSight並非僅是一個金融工具,而是展示了Agent架構在高複雜度垂直領域的潛力。
通過統一數據、工具與智能體,並引入視覺與寫作的多階段閉環,AI系統首次在金融投研這一“專家密集型”場景中,展現出接近人類分析師的工作能力。
這一範式的意義不止於金融。
它表明,在那些高度依賴專業知識、長時程推理與多模態表達的“專家密集型”場景中,AI 系統不再只是信息彙總器,而開始承擔起類似人類專家的工作方式:
分解問題、驗證假設、修正結論,並最終形成可被審閱與追溯的完整成果。
從這個角度看,FinSight更像是一個起點。
隨著Agent架構不斷成熟,未來的科研分析、法律研判、醫療決策等複雜領域,或將逐步迎來以專家級AI Agent為核心的新一代生產力形態。
論文及項目作者:中國人民大學高瓴人工智能學院:金佳傑、張宇堯、許一孟、錢泓錦、朱餘韜、竇志成
論文鏈接:https://arxiv.org/abs/2510.16844
代碼鏈接:https://github.com/RUC-NLPIR/FinSight
本文來自微信公眾號“量子位”,作者:FinSight團隊,36氪經授權發佈。



