許多人一生中會罹患不止一種疾病,但預測不同疾病之間的相互影響依然困難。
在醫療決策領域,精準預測患者未來健康走向一直是核心需求。人工智能(AI)模型可藉助患者記錄中的海量數據,幫助識別疾病的進展模式。然而,它們的潛力尚未被充分挖掘,尤其是在大規模人群層面。
日前,德國海德堡德國癌症研究中心 DKFZ 腫瘤學 AI 分部等聯合團隊在 Nature 期刊上發佈了一篇論文,提出了一項突破性的研究成果:Delphi-2M 模型。模型基於生成式預訓練 Transformer(GPT)技術,通過分析個人病歷和生活方式,對 1000 多種疾病提供長達 20 年的潛在疾病風險評估,並生成保護隱私的合成數據,為個性化醫療和長期健康規劃開闢了全新路徑。
論文鏈接:https://www.nature.com/articles/s41586-025-09529-3
魔改 GPT-2,AI 預測個體未來 20 年健康
Delphi-2M 模型的核心在於,通過理解患者過去與當下的健康狀態,預測未來疾病風險並進行干預。
過去,AI 方法雖能從醫療記錄中學習和預測疾病進展,但受限於模型架構,難以實現對多疾病、長週期、大規模的精準預測。隨著人口老齡化加劇,疾病預測的重要性愈發凸顯。在此背景下,可以精準模擬多疾病進展的 AI 模型,將成為醫療規劃與資源分配的關鍵工具。
為了模擬疾病歷史數據,研究團隊對 GPT-2 架構進行了“魔改”。Transformer 模型通過將輸入映射到嵌入空間,逐步聚合信息以實現自迴歸預測。他們用正弦和餘弦基函數對連續年齡進行編碼,並在輸出頭中加入另一個模塊,通過指數等待時間模型預測下一時間。該架構允許用戶通過提供部分健康軌跡,計算出疾病及死亡事件的每日新增率,並根據這些速率對後續 token 及對應時間進行抽樣,逐步完成完整健康軌跡的抽樣。
圖|Delphi-2M 模型架構
Delphi-2M 的訓練與驗證依託內、外兩大高質量數據集,確保模型的泛化能力與可靠性。訓練數據主要來自英國生物樣本庫的 40 萬名參與者,涵蓋 ICD-10 頂級診斷代碼、性別、體重指數(BMI)、吸菸 / 飲酒習慣及死亡信息。
內部驗證數據:英國生物樣本庫剩餘 20% 參與者(約 10.2 萬人),用於模型超參數優化;同時選取 47.1 萬名 2020 年 7 月 1 日仍存活的參與者,追蹤至 2022 年 7 月 1 日,驗證模型的縱向預測能力。
外部驗證數據:丹麥全國疾病登記系統的 193 萬國民數據,時間跨度從 1978-2018 年。值得注意的是,應用於丹麥數據時,模型未調整任何參數,直接複用英國數據訓練的權重,以此檢驗其跨人群、跨醫療體系的適用性。
傳統臨床風險模型往往注重專精,如 QRisk3 用於心血管疾病風險評估、UKBDRS 用於痴呆預測,多數模型僅能覆蓋數十種疾病。而 Delphi-2M 近乎實現了“全譜覆蓋”,可同時預測 1256 種疾病及死亡風險,且精準度表現出色。
圖|Delphi-2M 模型精準模擬了多種疾病的發病率。
內部驗證表現方面,在英國生物樣本庫數據中,模型對多數疾病的年齡 - 性別分層 AUC(受試者工作特徵曲線下面積,越高表示預測能力越強)平均達 0.76,97% 的疾病 AUC 超過 0.5,表明其具備一定的預測價值。其中,死亡風險預測的 AUC 最高,男女均達 0.97,已經接近完美預測。
與臨床工具進行對比時,研究團隊發現,當使用模型預測心血管疾病、痴呆時,AUC 與 QRisk3、UKBDRS 等經典工具相當;預測死亡風險時,AUC 優於 Charlson 共病指數、Elixhauser 共病指數等常用指標;僅在糖尿病預測上略遜於臨床金標準 HbA1c,這也提示了研究人員未來可以通過整合生物標誌物進一步優化。
Delphi-2M 在跨人群泛化能力的表現也較為優異。應用於丹麥數據時,Delphi-2M 平均 AUC 雖略低於英國數據,但疾病預測結果與丹麥人群實際發病模式高度相關,證明其在不同醫療體系下具備廣泛適用性。
圖|Delphi-2M inform 生成未來健康軌跡的建模方法。
不同於傳統模型僅能預測 1-5 年的發病概率,Delphi-2M 的“生成式”特性使其能模擬個體未來長達 20 年的健康路徑。研究團隊以英國生物樣本庫中 60 歲參與者為例,基於其 60 歲前的病史數據,生成未來健康軌跡,並與實際隨訪結果對比得出以下結論:
首先,群體層面的吻合度較高。Delphi-2M 的 70-75 歲疾病發病率與實際觀察值高度一致,衡量預測分佈與真實分佈差異的交叉熵損失與真實數據無顯著差異;若隨機打亂參與者的既往病史,模擬結果的準確性會明顯下降,證明 Delphi-2M 確實捕捉到了病史與未來疾病的關聯。
其次,個體風險區分清晰。對於胰腺癌等疾病,模型能區分出“高風險”與“低風險”個體。如既往有消化系統疾病的人群,其患胰腺癌的風險會大幅升高;而哮喘、骨關節炎等疾病的風險預測雖仍依賴年齡 - 性別趨勢,但也能識別出偏離群體平均風險的個體。
此外,實驗證明長期預測仍然有效。隨著預測時間延長,模型準確性會逐漸下降,但仍優於僅基於年齡和性別的預測,證明了其具備長期預測價值。
安格利亞魯斯金大學生物醫學科學教授 Justin Stebbing 評價道,“Delphi-2M 是計算醫學與數據整合領域的重大突破,凸顯了 GPT 模型在預測大規模人群及個體健康軌跡中千餘種疾病發生率與時間節點方面的強大能力。”
倫敦國王學院基因組神經影像與人工智能教授 Gustavo Sudre 也認為,“Delphi-2M 清晰地展示如何運用可解釋 AI 進行預測建模至關重要,這為該技術應用於臨床實踐奠定基礎,並暗示識別出需要干預的高風險個體。”
此外。醫療數據的隱私敏感性一直是 AI 研究的痛點,直接使用真實數據訓練模型可能洩露個人信息,但匿名化處理又會損失關鍵信息,模型的合成數據生成能力為這一難題提供了新解法。
Delphi-2M 可生成完全虛構的健康軌跡,復現真實人群的年齡 - 性別特異性發病率模式,且無法通過合成數據反推真實的個人信息,因此可作為真實數據的一種替代品,用於訓練其他醫療 AI 模型,既能保護隱私,又避免了數據資源的浪費。Stebbing 教授也肯定了這一優勢,稱其“外部驗證能力與合成數據集生成能力,彰顯了模型的魯棒性、隱私管理優勢及醫療規劃潛力”。
不足與未來
儘管 Delphi-2M 表現突出,但研究團隊在論文中也明確指出了其侷限性,需在應用過程中謹慎對待。
例如,Delphi-2M 存在訓練數據偏差的情況,這是由於在學習英國生物樣本庫時造成的“固有偏差”。英國生物樣本庫參與者以 40-70 歲社會經濟地位較高的白人為主,導致模型對其他人群的預測可靠性較低。目前的模型還無法建立因果關係,僅能捕捉“相關性”,不能基於預測結果直接制定干預方案。
此外,Delphi-2M 僅通過數據擬合驗證,尚未經過前瞻性臨床試驗,未在真實臨床場景中測試。英國工程與技術學會院士 Peter Bannister 也表示,“這兩個數據集在年齡、種族和當前醫療結果方面都存在偏差,距離改善醫療保健還有很長的路要走。”
Delphi-2M 的發佈,標誌著 AI 在醫療預測領域從單一擴展到多元、從“短期風險”向“長期軌跡”、從“依賴真實數據”向“隱私保護兼容”的跨越。其核心價值不僅在於預測能力強,更在於為精準醫療提供了可解釋、可擴展的框架。通過 SHAP 分析,模型可清晰地展示“某一既往疾病如何影響未來風險”。通過整合基因組數據、更豐富的代謝組學信息、診斷影像數據或可穿戴設備數據,可進一步提升其預測能力。
對於 Delphi-2M 模型的未來,Sudre 教授指出,“雖然當前版本僅依賴匿名化臨床記錄,但令人鼓舞的是模型架構經過精心設計,可兼容生物標誌物、影像學乃至基因組學等更豐富的數據類型。隨著未來數據整合的推進,Delphi 平臺有望發展為真正的多模態精準醫療工具”。
當然,模型是醫療決策的助手,而非替代者,其預測結果需結合醫生經驗、患者意願綜合判斷。未來,隨著訓練數據的多元化、驗證場景的臨床化等,Delphi-2M 這類 AI 模型有望真正融入醫療流程,為每個人提供量身定製的健康管理方案,真正推動精準醫療從概念走向實踐。
本文來自微信公眾號 “學術頭條”(ID:SciTouTiao),整理:小瑜,36氪經授權發佈。