많은 사람들이 평생에 두 가지 이상의 질병을 앓게 되지만, 서로 다른 질병이 어떻게 상호 작용하는지 예측하는 것은 여전히 어렵습니다.
환자의 미래 건강 궤적을 정확하게 예측하는 것은 의료 의사 결정의 핵심 요소입니다 . 인공지능(AI) 모델은 환자 기록의 방대한 데이터를 활용하여 질병 진행 패턴을 파악하는 데 도움을 줄 수 있습니다. 그러나 특히 대규모 인구 집단에서 AI 모델의 잠재력은 아직 크게 활용되지 않은 상태입니다.
독일 하이델베르크에 있는 독일 암 연구 센터(DKFZ) 종양학 AI 부서의 공동 연구팀을 비롯한 여러 연구진은 최근 네이처(Nature) 저널에 획기적인 연구 결과인 델파이-2M(Delphi-2M) 모델을 발표하며 논문을 발표했습니다. GPT(Generative Pretrained Transformer) 기술을 기반으로 하는 이 모델은 개인의 의료 기록과 생활 습관을 분석하여 1,000개 이상의 질병에 대해 최대 20년간 의 잠재적 질병 리스크 평가를 제공합니다. 또한, 이 모델은 개인정보가 보호되는 합성 데이터를 생성하여 개인 맞춤 의료 및 장기적인 건강 계획 수립을 위한 새로운 길을 열어줍니다.
논문 링크: https://www.nature.com/articles/s41586-025-09529-3
매직 GPT-2, AI가 향후 20년간 개인 건강 예측
Delphi-2M 모델의 핵심은 환자의 과거와 현재 건강 상태를 이해하여 미래의 질병 리스크 예측하고 개입하는 것입니다.
과거에는 AI가 의료 기록을 통해 질병 진행을 학습하고 예측할 수 있었지만, 모델 아키텍처의 한계로 인해 장기간에 걸쳐 대규모로 여러 질병을 정확하게 예측하는 데 어려움을 겪었습니다. 인구 고령화로 인해 질병 예측의 중요성이 더욱 부각되고 있습니다. 이러한 맥락에서 여러 질병의 진행을 정확하게 시뮬레이션할 수 있는 AI 모델은 의료 계획 수립 및 자원 배분에 핵심적인 도구가 될 것입니다.
연구팀은 과거 질병 데이터를 시뮬레이션하기 위해 GPT-2 아키텍처를 수정했습니다. 트랜스포머 모델은 입력을 임베딩 공간에 매핑하고, 점진적으로 정보를 집계하여 자기회귀 예측을 수행합니다. 연구팀은 사인 및 코사인 기저 함수를 사용하여 연속 연령을 인코딩 하고, 지수 대기 시간 모델을 사용하여 다음 시간을 예측하는 출력 헤더에 모듈 추가했습니다. 이 아키텍처를 통해 사용자는 부분적인 건강 궤적을 제공하고 새로운 질병 및 사망 사건의 일일 발생률을 계산할 수 있습니다. 이러한 발생률을 기반으로 후속 토큰과 해당 시간을 샘플링하여 완전한 건강 궤적의 샘플링을 점진적으로 완료합니다.
그림 | Delphi-2M 모델 아키텍처
Delphi-2M은 모델의 일반화와 신뢰성을 보장하기 위해 두 개의 고품질 내부 및 외부 데이터 세트를 사용하여 학습 및 검증되었습니다. 학습 데이터는 주로 영국 바이오뱅크(UK Biobank) 참여자 40만 명으로부터 수집되었으며, ICD-10 최상위 진단 코드, 성별, 체질량 지수(BMI), 흡연/음주 습관, 그리고 사망률 정보를 포함하고 있습니다.
내부 검증 데이터 : 영국 바이오뱅크 참여자의 나머지 20%(약 102,000명)는 모델 하이퍼파라미터 최적화에 사용되었습니다. 동시에 2020년 7월 1일 현재 살아있는 471,000명의 참여자를 선정하여 2022년 7월 1일까지 추적하여 모델의 종단적 예측 능력을 검증했습니다.
외부 검증 데이터 : 1978년부터 2018년까지 193만 명을 대상으로 한 덴마크 국립 질병 등록부의 데이터입니다. 특히, 이 모델을 덴마크 데이터에 적용할 때 매개변수를 조정하지 않았습니다. 대신 영국 데이터에서 학습된 모델 가중치를 재사용하여 인구와 의료 시스템 전반에 걸친 적용 가능성을 테스트했습니다.
기존의 임상 리스크 모델은 심혈관 질환 리스크 평가를 위한 QRisk3와 치매 예측을 위한 UKBDRS처럼 전문화에 중점을 두는 경향이 있습니다. 대부분의 모델은 수십 가지 질병만을 다룹니다. 반면, Delphi-2M은 거의 모든 질병을 포괄하며 , 1,256가지 질병 리스크 과 사망률을 동시에 탁월한 정확도로 예측합니다.
그림 | Delphi-2M 모델은 다양한 질병의 발생률을 정확하게 시뮬레이션합니다.
내부 검증 성능 측면에서, 영국 바이오뱅크 데이터를 사용한 이 모델은 대부분의 질병에 대해 연령 및 성별 계층화 AUC(수신자 조작 특성 곡선 아래의 면적, 값이 높을수록 예측력이 높음을 나타냄) 평균 0.76을 달성했습니다. 97%의 질병에서 AUC는 0.5를 초과하여 합리적인 예측력을 보였습니다. 사망 리스크 예측에서 가장 높은 AUC를 달성했는데, 남녀 모두 0.97에 도달하여 거의 완벽한 예측을 나타냈습니다.
연구팀은 임상 도구와 비교했을 때, 이 모델을 사용하여 심혈관 질환과 치매를 예측했을 때 AUC가 QRisk3 및 UKBDRS와 같은 기존 도구와 비슷한 수준이었고, 사망 리스크 예측할 때 AUC가 찰슨 합병증 지수(Charlson Comorbidity Index) 및 엘릭스하우저 합병증 지수(Elixhauser Comorbidity Index)와 같이 일반적으로 사용되는 지표보다 더 우수했으며, 당뇨병 예측에서는 임상적 표준인 HbA1c보다 약간 떨어지는 것으로 나타났습니다. 이는 연구자들이 앞으로 바이오마커를 통합하여 더욱 최적화할 수 있음을 시사합니다.
Delphi-2M은 또한 우수한 인구 간 일반화를 보여줍니다. 덴마크 데이터에 적용했을 때, Delphi-2M의 평균 AUC는 영국 데이터보다 약간 낮았습니다. 그러나 질병 예측 결과는 덴마크 인구의 실제 질병 패턴과 높은 상관관계를 보였으며, 이는 다양한 의료 시스템에 걸쳐 Delphi-2M이 광범위하게 적용될 수 있음을 보여줍니다.
그림 | Delphi-2M은 미래의 건강 궤적을 생성하는 모델링 접근 방식을 알려줍니다.
1~5년 이내의 질병 발생 확률만 예측하는 기존 모델과 달리, Delphi-2M은 생성적 특성을 활용하여 최대 20년까지 개인의 건강 경로를 시뮬레이션할 수 있습니다. 영국 바이오뱅크(Biobank)의 60세 참가자를 예로 들어, 연구팀은 60세 이전의 병력을 기반으로 미래의 건강 경로를 생성했습니다. 이를 실제 추적 관찰 결과와 비교하여 다음과 같은 결론을 도출했습니다.
첫째, 인구 수준에서의 일치도가 높습니다 . 70~75세 노인의 델파이-2M 질병 발생률은 실제 관측치와 매우 일치합니다. 예측 분포와 실제 분포의 차이를 측정하는 교차 엔트로피 손실은 실제 데이터와 유의미한 차이가 없습니다. 참가자의 병력을 무작위로 섞으면 시뮬레이션 결과의 정확도가 크게 감소하는데, 이는 델파이-2M이 병력과 미래 질병 간의 관계를 잘 포착함을 보여줍니다.
둘째, 개인 리스크 명확하게 구분됩니다 . 췌장암과 같은 질병의 경우, 이 모델은 "리스크" 개인과 "저 리스크" 개인을 구분할 수 있습니다. 예를 들어, 소화기 질환 병력이 있는 사람들은 췌장암 리스크 상당히 높습니다. 천식이나 골관절염과 같은 질병의 리스크 예측은 여전히 연령-성별 추세에 의존하지만, 집단 평균에서 벗어나는 리스크 가진 개인도 식별할 수 있습니다.
또한, 실험 결과 장기 예측은 여전히 효과적임이 입증되었습니다 . 예측 시간이 증가함에 따라 모델의 정확도는 감소하지만, 연령과 성별만을 기반으로 한 예측보다 여전히 우수한 성능을 보이며, 장기 예측 가치를 입증합니다.
앵글리아 러스킨 대학교 생물의학과 교수인 저스틴 스테빙은 "Delphi-2M은 계산 의학과 데이터 통합 분야에서 획기적인 발전으로, GPT 모델이 대규모 인구와 개인의 건강 경로에 걸쳐 수천 가지 질병의 발생률과 시기를 예측할 수 있는 힘을 보여준다"고 말했습니다.
킹스 칼리지 런던의 게놈 신경 영상 및 인공지능 교수인 구스타보 쉬드레는 "Delphi-2M은 예측 모델링을 위해 설명 가능한 AI를 사용하는 방법을 명확하게 보여주는데, 이는 이 기술을 임상 실무에 적용하는 데 중요하며, 개입이 필요한 리스크 개인을 식별하는 데 영향을 미칩니다."라고 동의했습니다.
더욱이, 의료 데이터의 개인정보 보호 문제는 AI 연구에서 항상 골칫거리였습니다. 실제 데이터를 직접 사용하여 모델을 학습시키면 개인정보가 유출될 수 있으며, 익명화는 핵심 정보의 손실을 초래할 수 있습니다. AI 모델이 합성 데이터를 생성할 수 있는 능력은 이 문제에 대한 새로운 해결책을 제시합니다.
델파이-2M은 실제 인구 집단의 연령 및 성별별 이환율 패턴을 재현하는 완전히 가상의 건강 궤적을 생성할 수 있습니다. 합성 데이터에서 실제 개인 정보를 추론하는 것은 불가능하므로, 다른 의료 AI 모델을 훈련하는 데 실제 데이터를 대체하여 사용할 수 있으며, 이를 통해 데이터 리소스 낭비를 방지하면서 개인정보를 보호할 수 있습니다. 스테빙 교수는 또한 이러한 장점을 강조하며, "외부 검증 기능과 합성 데이터셋 생성 능력은 이 모델의 견고성, 개인정보 관리 이점, 그리고 의료 계획 수립의 잠재력을 입증한다"고 말했습니다.
단점과 미래
Delphi-2M은 뛰어난 성능을 보이지만, 연구팀은 논문에서 그 한계점을 명확히 지적하고 주의해서 사용해야 한다고 경고했습니다.
예를 들어, Delphi-2M은 영국 바이오뱅크에서 학습할 때 발생하는 내재적 편향 으로 인해 학습 데이터 편향이 발생합니다 . 영국 바이오뱅크 참여자는 대부분 40~70세의 백인이며 사회경제적 지위가 높아 다른 집단에 대한 모델 예측의 신뢰도가 낮습니다. 현재 모델은 상관관계만 포착할 뿐 인과관계를 확립하지 못하며, 예측을 기반으로 개입 계획을 직접 수립할 수 없습니다.
더욱이 Delphi-2M은 데이터 피팅을 통해서만 검증되었으며, 전향적 임상 시험을 거치거나 실제 임상 환경에서 테스트되지 않았습니다 . 미국 공학기술연구소(Institution of Engineering and Technology)의 피터 배니스터(Peter Bannister) 펠로우는 "두 데이터 세트 모두 연령, 민족, 그리고 현재 의료 결과 측면에서 편향되어 있어 의료 서비스 개선과는 거리가 멉니다."라고 말했습니다.
Delphi-2M의 출시는 의료 분야 AI 예측에 있어 중요한 진전을 의미합니다. 단일 모델에서 다면적 모델로, 단기 리스크 중심에서 장기 경로 중심으로, 그리고 실제 데이터 기반에서 개인정보 보호 중심으로 확장되었습니다. Delphi-2M의 핵심 가치는 강력한 예측 능력뿐만 아니라 정밀 의학을 위한 해석 가능하고 확장 가능한 프레임 제공하는 데 있습니다. SHAP 분석을 통해 이 모델은 과거 질병이 미래 리스크 에 미치는 영향을 명확하게 보여줍니다. 유전체 데이터, 더욱 풍부한 대사체학 정보, 진단 영상 데이터 또는 웨어러블 기기 데이터를 통합하여 예측 능력을 더욱 강화할 수 있습니다.
델파이-2M 모델의 미래에 대해 쉬드르 교수는 다음과 같이 지적했습니다. "현재 버전은 익명화된 임상 기록에만 의존하고 있지만, 바이오마커, 영상, 유전체학과 같은 더욱 풍부한 데이터 유형과도 호환되도록 모델 아키텍처가 신중하게 설계되었다는 점은 고무적입니다. 향후 데이터 통합이 발전함에 따라 델파이 플랫폼은 진정한 멀티모달 정밀 의학 도구로 발전할 것으로 기대됩니다."
물론, 모델은 의학적 의사 결정을 돕는 도구일 뿐, 대체재가 아닙니다. 모델의 예측은 의사의 경험과 환자의 선호도를 고려하여 이루어져야 합니다. 앞으로는 학습 데이터의 다각화와 검증 시나리오의 임상화를 통해 Delphi-2M과 같은 AI 모델이 의료 프로세스에 진정으로 통합되어 각 개인에게 맞춤형 건강 관리 솔루션을 제공하고, 개념부터 실제 적용까지 정밀 의학을 진정으로 발전시킬 것으로 예상됩니다.
본 기사는 Xiaoyu가 편집하고 36Kr이 허가를 받아 게시한 WeChat 공개 계정 "Academic Headlines"(ID: SciTouTiao) 에서 발췌한 것입니다.