Tin tức lớn của thiên nhiên: Magic GPT-2, AI có thể giúp bạn dự đoán rủi ro sức khỏe trong 20 năm tới, liên quan đến hơn 1.000 bệnh

Bài viết này được dịch máy
Xem bản gốc

Nhiều người sẽ mắc nhiều hơn một căn bệnh trong đời, nhưng việc dự đoán các căn bệnh khác nhau sẽ tương tác như thế nào vẫn còn khó khăn.

Việc dự đoán chính xác diễn biến sức khỏe trong tương lai của bệnh nhân vẫn là một nhu cầu cốt lõi trong việc ra quyết định chăm sóc sức khỏe . Các mô hình trí tuệ nhân tạo (AI) có thể tận dụng lượng lớn dữ liệu từ hồ sơ bệnh án để giúp xác định các mô hình tiến triển bệnh. Tuy nhiên, tiềm năng của chúng vẫn chưa được khai thác triệt để, đặc biệt là trên các quần thể lớn.

Một đội ngũ nghiên cứu chung từ Bộ phận Trí tuệ nhân tạo Ung thư thuộc Trung tâm Nghiên cứu Ung thư Đức (DKFZ) tại Heidelberg, Đức, cùng các nhóm khác gần đây đã công bố một bài báo trên tạp chí Nature , trình bày một kết quả nghiên cứu đột phá: mô hình Delphi-2M . Dựa trên công nghệ Biến áp tiền huấn luyện sinh (GPT), mô hình này phân tích hồ sơ bệnh án và lối sống của từng cá nhân để cung cấp đánh giá rủi ro bệnh tiềm ẩn trong vòng 20 năm cho hơn 1.000 bệnh. Mô hình này cũng tạo ra dữ liệu tổng hợp được bảo vệ quyền riêng tư, mở ra những hướng đi mới cho y học cá nhân hóa và lập kế hoạch sức khỏe dài hạn.

Liên kết bài báo: https://www.nature.com/articles/s41586-025-09529-3

Magic GPT-2, AI dự đoán sức khỏe cá nhân trong 20 năm tới

Cốt lõi của mô hình Delphi-2M là dự đoán rủi ro bệnh tật trong tương lai và can thiệp bằng cách hiểu tình trạng sức khỏe trước đây và hiện tại của bệnh nhân.

Trước đây, mặc dù phương pháp AI có thể học và dự đoán tiến triển bệnh từ hồ sơ bệnh án, nhưng những hạn chế về kiến ​​trúc mô hình đã khiến việc dự đoán chính xác nhiều bệnh trong thời gian dài và trên quy mô lớn trở nên khó khăn. Với sự già hóa dân số, tầm quan trọng của việc dự đoán bệnh tật ngày càng trở nên nổi bật. Trong bối cảnh này, các mô hình AI có khả năng mô phỏng chính xác tiến triển của nhiều bệnh sẽ trở thành một công cụ chủ chốt cho việc lập kế hoạch chăm sóc sức khỏe và phân bổ nguồn lực.

Để mô phỏng dữ liệu bệnh tật lịch sử , đội ngũ nghiên cứu đã sửa đổi kiến ​​trúc GPT-2. Mô hình Transformer ánh xạ các đầu vào vào một không gian nhúng, dần dần tổng hợp thông tin để đạt được các dự đoán tự hồi quy. Họ mã hóa tuổi liên tục bằng các hàm sin và cosin, đồng thời thêm một mô-đun khác vào tiêu đề đầu ra để dự đoán thời gian tiếp theo bằng mô hình thời gian chờ hàm mũ. Kiến trúc này cho phép người dùng cung cấp một quỹ đạo sức khỏe cục bộ và tính toán tỷ lệ hàng ngày của các trường hợp bệnh mới và tử vong. Dựa trên các tỷ lệ này, các mã thông báo tiếp theo và thời gian tương ứng được lấy mẫu để dần dần hoàn thành việc lấy mẫu toàn bộ quỹ đạo sức khỏe.

Hình | Kiến trúc mô hình Delphi-2M

Delphi-2M được đào tạo và xác thực bằng hai dữ liệu nội bộ và bên ngoài chất lượng cao để đảm bảo tính khái quát và độ tin cậy của mô hình. Dữ liệu đào tạo chủ yếu đến từ 400.000 người tham gia tại UK Biobank, bao gồm mã chẩn đoán cấp cao nhất ICD-10, giới tính, chỉ số khối cơ thể (BMI), thói quen hút thuốc/uống rượu và thông tin về tử vong.

Dữ liệu xác thực nội bộ : 20% số người tham gia còn lại trong UK Biobank (khoảng 102.000 người) được sử dụng để tối ưu hóa siêu tham số mô hình; đồng thời, 471.000 người tham gia vẫn còn sống vào ngày 1 tháng 7 năm 2020 đã được chọn và theo dõi cho đến ngày 1 tháng 7 năm 2022 để xác minh khả năng dự đoán theo chiều dọc của mô hình.

Dữ liệu xác thực bên ngoài : Dữ liệu từ Cơ quan đăng ký bệnh tật quốc gia Đan Mạch bao gồm 1,93 triệu cá nhân từ năm 1978 đến năm 2018. Đáng chú ý là khi áp dụng mô hình vào dữ liệu của Đan Mạch, không có tham số nào được điều chỉnh; thay vào đó, tỷ trọng được đào tạo trên dữ liệu của Vương quốc Anh đã được sử dụng lại để kiểm tra khả năng áp dụng của mô hình trên toàn bộ dân số và hệ thống chăm sóc sức khỏe.

Các mô hình rủi ro lâm sàng truyền thống thường tập trung vào chuyên môn hóa, chẳng hạn như Qrisk3 để đánh giá rủi ro bệnh tim mạch và UKBDRS để dự đoán chứng mất trí nhớ. Hầu hết các mô hình chỉ bao phủ được vài chục bệnh. Ngược lại, Delphi-2M đạt được phạm vi bao phủ gần như toàn bộ phổ , đồng thời dự đoán rủi ro 1.256 bệnh và tỷ lệ tử vong với độ chính xác vượt trội.

Hình | Mô hình Delphi-2M mô phỏng chính xác tỷ lệ mắc nhiều loại bệnh khác nhau.

Về hiệu suất xác thực nội bộ, sử dụng dữ liệu UK Biobank, mô hình đạt được AUC (diện tích dưới đường cong đặc trưng hoạt động của máy thu; giá trị cao hơn cho thấy khả năng dự đoán mạnh hơn) phân tầng theo tuổi và giới tính trung bình là 0,76 đối với hầu hết các bệnh. Đối với 97% bệnh, AUC vượt quá 0,5, cho thấy giá trị dự đoán hợp lý. AUC cao nhất trong đó được trong dự đoán rủi ro tử vong, đạt 0,97 cho cả nam và nữ, thể hiện khả năng dự đoán gần như hoàn hảo.

Khi so sánh với các công cụ lâm sàng, đội ngũ nghiên cứu nhận thấy rằng khi mô hình được sử dụng để dự đoán bệnh tim mạch và chứng mất trí, AUC tương đương với các công cụ cổ điển như Qrisk3 và UKBDRS; khi dự đoán rủi ro tử vong, AUC tốt hơn chỉ báo thường được sử dụng như Chỉ số bệnh đi kèm Charlson và Chỉ số bệnh đi kèm Elixhauser; nó chỉ kém hơn một chút so với tiêu chuẩn vàng lâm sàng HbA1c trong việc dự đoán bệnh tiểu đường, điều này cũng cho thấy rằng các nhà nghiên cứu có thể tối ưu hóa nó hơn nữa bằng cách tích hợp các dấu ấn sinh học trong tương lai.

Delphi-2M cũng thể hiện khả năng khái quát hóa chéo quần thể tuyệt vời. Khi áp dụng cho dữ liệu của Đan Mạch, AUC trung bình của Delphi-2M thấp hơn một chút so với dữ liệu của Anh. Tuy nhiên, kết quả dự đoán bệnh có mối tương quan cao với mô hình bệnh tật thực tế trong quần thể Đan Mạch, chứng minh khả năng ứng dụng rộng rãi của nó trên nhiều hệ thống chăm sóc sức khỏe khác nhau.

Hình | Delphi-2M cung cấp thông tin về phương pháp lập mô hình để tạo ra lộ trình sức khỏe trong tương lai.

Không giống như các mô hình truyền thống chỉ dự đoán xác suất mắc bệnh trong vòng 1-5 năm, tính chất sinh sản của Delphi-2M cho phép nó mô phỏng lộ trình sức khỏe của một cá nhân trong tối đa 20 năm. Lấy một người tham gia 60 tuổi từ Ngân hàng Sinh học Anh Quốc làm ví dụ, đội ngũ nghiên cứu đã tạo ra các lộ trình sức khỏe trong tương lai dựa trên dữ liệu bệnh lý của họ trước 60 tuổi. So sánh những kết quả này với kết quả theo dõi thực tế, họ kết luận:

Thứ nhất, sự đồng thuận ở cấp độ dân số là cao . Tỷ lệ mắc bệnh Delphi-2M ở những người từ 70-75 tuổi rất phù hợp với các quan sát thực tế. Độ lệch entropy chéo, đo lường sự khác biệt giữa phân phối dự đoán và phân phối thực, không khác biệt đáng kể so với dữ liệu thực. Độ chính xác của kết quả mô phỏng giảm đáng kể khi tiền sử bệnh của người tham gia bị xáo trộn ngẫu nhiên, chứng minh rằng Delphi-2M nắm bắt được mối quan hệ giữa tiền sử bệnh và bệnh tật trong tương lai.

Thứ hai, rủi ro cá nhân được phân biệt rõ ràng . Đối với các bệnh như ung thư tuyến tụy, mô hình có thể phân biệt giữa những người "rủi ro cao" và "rủi ro thấp". Ví dụ, những người có tiền sử bệnh lý đường tiêu hóa có rủi ro mắc ung thư tuyến tụy cao hơn đáng kể. Mặc dù việc dự đoán rủi ro mắc các bệnh như hen suyễn và viêm xương khớp vẫn dựa trên xu hướng tuổi-giới tính, mô hình cũng có thể xác định những người có rủi ro khác biệt so với mức trung bình của nhóm.

Hơn nữa, các thí nghiệm đã chỉ ra rằng các dự đoán dài hạn vẫn hiệu quả . Mặc dù độ chính xác của mô hình giảm khi thời gian dự đoán tăng lên, nhưng nó vẫn vượt trội hơn các dự đoán chỉ dựa trên độ tuổi và giới tính, chứng minh giá trị dự đoán dài hạn của nó.

Justin Stebbing, Giáo sư Khoa học Y sinh tại Đại học Anglia Ruskin, nhận xét: “Delphi-2M là một bước đột phá lớn trong y học tính toán và tích hợp dữ liệu, chứng minh sức mạnh của các mô hình GPT trong việc dự đoán tỷ lệ mắc bệnh và nút của hơn một nghìn bệnh trên các quần thể lớn và quỹ đạo sức khỏe của từng cá nhân.”

Gustavo Sudre, giáo sư về hình ảnh thần kinh bộ gen và trí tuệ nhân tạo tại King's College London, cho rằng"Delphi-2M chứng minh rõ ràng cách sử dụng AI có thể giải thích được để lập mô hình dự đoán, điều này rất quan trọng để áp dụng công nghệ này vào thực hành lâm sàng và có ý nghĩa trong việc xác định những cá nhân rủi ro cao cần can thiệp."

Hơn nữa, tính nhạy cảm về quyền riêng tư của dữ liệu y tế luôn là một điểm yếu trong nghiên cứu AI. Việc sử dụng trực tiếp dữ liệu thực để huấn luyện mô hình có thể làm rò rỉ thông tin cá nhân, trong khi nặc danh sẽ dẫn đến việc mất thông tin quan trọng. Khả năng tạo dữ liệu tổng hợp của mô hình mang đến một giải pháp mới cho vấn đề này.

Delphi-2M có thể tạo ra các quỹ đạo sức khỏe hoàn toàn giả định, mô phỏng các mô hình bệnh tật theo độ tuổi và giới tính trong một quần thể thực. Vì không thể suy ra thông tin cá nhân thực từ dữ liệu tổng hợp, nó có thể được sử dụng thay thế dữ liệu thực để huấn luyện các mô hình AI y tế khác, bảo vệ quyền riêng tư đồng thời tránh lãng phí tài nguyên dữ liệu. Giáo sư Stebbing cũng khẳng định lợi thế này, cho biết "khả năng xác thực bên ngoài và khả năng tạo ra dữ liệu tổng hợp của nó chứng minh tính mạnh mẽ, lợi thế quản lý quyền riêng tư và tiềm năng lập kế hoạch chăm sóc sức khỏe của mô hình."

Những thiếu sót và tương lai

Mặc dù Delphi-2M có hiệu suất vượt trội, đội ngũ nghiên cứu cũng chỉ rõ những hạn chế của nó trong bài báo và cảnh báo rằng cần phải thận trọng khi sử dụng.

Ví dụ, Delphi-2M bị ảnh hưởng bởi sai lệch dữ liệu huấn luyện, hậu quả của những sai lệch cố hữu khi học từ UK Biobank. Những người tham gia UK Biobank chủ yếu là người da trắng, độ tuổi 40-70 và có địa vị kinh tế xã hội cao, dẫn đến độ tin cậy của dự đoán của mô hình đối với các nhóm dân số khác thấp hơn. Mô hình hiện tại không thể thiết lập mối quan hệ nhân quả, chỉ nắm bắt được các mối tương quan, và không thể trực tiếp xây dựng kế hoạch can thiệp dựa trên dự đoán của nó.

Hơn nữa, Delphi-2M chỉ được xác thực thông qua việc khớp dữ liệu và chưa trải qua các thử nghiệm lâm sàng tiền cứu hoặc được thử nghiệm trong môi trường lâm sàng thực tế. Peter Bannister, thành viên của Viện Kỹ thuật và Công nghệ, cũng cho biết: "Cả hai dữ liệu đều bị sai lệch về độ tuổi, dân tộc và kết quả y tế hiện tại, khiến chúng còn lâu mới có thể cải thiện được chăm sóc sức khỏe."

Việc phát hành Delphi-2M đánh dấu một bước tiến đáng kể trong dự đoán AI trong chăm sóc sức khỏe, mở rộng từ một mô hình đơn lẻ sang một mô hình đa diện, từ tập trung vào rủi ro ngắn hạn sang tập trung vào quỹ đạo dài hạn, và từ việc dựa vào dữ liệu thực tế sang duy trì quyền riêng tư. Giá trị cốt lõi của nó không chỉ nằm ở khả năng dự đoán mạnh mẽ mà còn ở việc cung cấp một khuôn khổ có thể diễn giải và mở rộng cho y học chính xác. Thông qua phân tích SHAP, mô hình minh họa rõ ràng cách một bệnh lý trước đây ảnh hưởng đến rủi ro trong tương lai. Khả năng dự đoán của nó có thể được tăng cường hơn nữa bằng cách tích hợp dữ liệu bộ gen, thông tin chuyển hóa phong phú hơn, dữ liệu hình ảnh chẩn đoán hoặc dữ liệu thiết bị đeo.

Về tương lai của mô hình Delphi-2M, Giáo sư Sudre chỉ ra: "Mặc dù phiên bản hiện tại chỉ dựa trên hồ sơ lâm sàng nặc danh, nhưng điều đáng mừng là kiến ​​trúc mô hình đã được thiết kế cẩn thận để tương thích với các loại dữ liệu phong phú hơn như dấu ấn sinh học, hình ảnh và thậm chí cả hệ gen. Với sự tiến bộ của tích hợp dữ liệu trong tương lai, nền tảng Delphi dự kiến ​​sẽ phát triển thành một công cụ y học chính xác đa phương thức thực sự."

Tất nhiên, các mô hình chỉ là công cụ hỗ trợ ra quyết định y tế, chứ không phải là sự thay thế. Dự đoán của chúng cần được xem xét kết hợp với kinh nghiệm của bác sĩ và sở thích của bệnh nhân. Trong tương lai, với sự đa dạng hóa dữ liệu đào tạo và việc lâm sàng hóa các kịch bản xác thực, các mô hình AI như Delphi-2M được kỳ vọng sẽ thực sự được tích hợp vào quy trình y tế , cung cấp các giải pháp quản lý sức khỏe được cá nhân hóa cho từng cá nhân và thực sự thúc đẩy y học chính xác từ khái niệm đến thực hành .

Bài viết này được trích từ tài khoản công khai WeChat "Academic Headlines" (ID: SciTouTiao) , do Xiaoyu biên soạn và được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận