10년 넘게 환자는 치료를 받았지만 허사였습니다. 하지만 ChatGPT에 모든 병력을 입력하자 질병의 원인이 한눈에 드러났습니다. 바로 유전자 돌연변이였습니다! 마이크로소프트와 OpenAI 같은 거대 기업들이 개발한 의료 AI가 전문 의사를 뛰어넘는 정확도를 자랑하며 조용히 등장했습니다! 의료의 미래가 완전히 바뀔지도 모릅니다!
AI가 다시 한번 의료계를 뒤흔들고 있습니다!
한 환자가 10년 넘게 설명할 수 없는 질병으로 고통받았고, 수십 명의 의사들이 치료법을 찾지 못했습니다.
그가 ChatGPT에 보고서를 입력할 때까지 AI는 정확히 요점을 파악했습니다. MTHFR A1298C 유전자 돌연변이입니다!
이 소식은 Reddit에서 널리 퍼졌습니다!
⚠️참고: ChatGPT의 제안을 채택하기 전, 환자는 담당 의사와 여러 차례 소통하고 확인했습니다. AI만을 의학적 근거로 삼지 말고, 전문 의사들의 의견을 종합하여 신중하게 결정하시기 바랍니다.
환자는 10년 넘게 여러 가지 설명할 수 없는 증상들로 고통받아 왔습니다. 척추 MRI, CT 스캔, 혈액 검사 등 할 수 있는 모든 것을 시도했지만 여전히 혼란스러워합니다.
나중에 그는 기능의학 검사를 받았는데, 뜻밖에도 동형접합 돌연변이, 즉 MTHFR 유전자 A1298C 돌연변이가 있다는 것을 발견했습니다. 이는 흔한 메틸렌테트라하이드로폴산 환원효소 MTHFR 유전자 돌연변이이며, 가장 흔한 돌연변이는 MTHFR C677T입니다.
모든 사람은 MTHFR 유전자를 두 개씩 가지고 있는데, 하나는 어머니로부터, 다른 하나는 아버지로부터 물려받았습니다. 위 그림은 MTHFR C677T의 가능한 유전자형을 보여줍니다. MTHFR A1298C는 MTHFR 유전자의 1298번 위치에 존재합니다. 이 돌연변이는 미국 인구의 7~12%에 영향을 미칩니다.
그는 또한 신경과 의사를 만나 다발성 경화증(MS) 검사를 받았습니다.
그는 수년에 걸친 모든 검사 보고서와 병력을 ChatGPT에 입력했습니다.
놀랍습니다. 놀라운 일이 벌어졌습니다. ChatGPT는 혈청 비타민 B12 수치가 정상이기는 했지만, 지속적인 신경통과 만성 피로와는 맞지 않는다는 것을 발견했습니다.
이러한 이상 현상은 오랫동안 무시되어 온 가능성, 즉 메틸화 차단을 나타냅니다.
몇 달 후, 환자의 따끔거림은 줄어들었고, 혼란스러운 정신 상태도 사라졌습니다.
주치의는 치료 보고서를 검토한 후 모든 증상의 원인이 유전자 돌연변이라는 사실을 알고 큰 충격을 받았습니다!
AGI의 발전을 추적하는 AI 엔지니어 로한 폴은 이 소식에 고무되었습니다. 그는 "의료 AI 모델을 통한 2차 소견이 의료 현장에서 표준이 될 때가 왔다"고 믿습니다.
해당 트윗은 OpenAI 대표가 다시 게시했습니다.
전직 포브스 기고자이자 작가인 데릭 데이비드는 지금이 의학 분야의 "알파고" 순간이라고 말했습니다. AI가 이제 질병 진단에 있어 인간보다 더 뛰어나다는 것입니다.
AI 의료 기적이 잇따라 일어나고 있다
비슷한 예가 너무 많네요!
Reddit 사용자 crasstyfartman의 자매가 ChatGPT에 의해 희귀 유전성 혈액 질환 진단을 받았습니다.
그 전에 그녀는 10년 넘게 의사와 자연요법사를 찾아다녔지만, 모두 심리적인 문제라고만 말했습니다. 심지어 그녀가 검사를 요청했을 때조차 그들은 눈을 굴렸습니다. 그녀는 고집했습니다. ChatGPT가 옳았습니다.
22년 동안 의사에게 불평을 한 끝에, 네티즌 buyableblah는 ChatGPT의 도움으로 마침내 진단을 받았습니다.
저도 자궁내막증 때문에 같은 방법을 택했습니다. 초음파 검사를 해보니 6cm 크기의 자궁내막종(자궁내막종이라고 합니다)이 발견되었는데, 지금은 7.3cm로 커져서 올해 안에 제거할 계획입니다.
한 네티즌은 수의사로부터 "잘못된 사형 선고"를 받은 반려견을 구하기 위해 ChatGPT를 사용하기도 했습니다.
Reddit 사용자 occasionallater0212는 의료 시스템에 대해 강한 불만을 표명했습니다.
ChatGPT 결과를 의사들에게 보여줬지만, 모두 비웃었습니다. 어떤 의사들은 "이런 진단 제안은 들어본 적이 없어요."라고 했고, 어떤 의사들은 "ChatGPT는 믿지 마세요."라고 했습니다.
이런 종류의 오만함은 정말 짜증납니다.
하지만 OpenAI만 그런 것은 아닙니다. Microsoft, Google, IBM 등 여러 기업이 이미 의료 AI를 개발하고 있습니다.
Microsoft의 소비자 AI 제품은 매일 5,000만 건 이상의 건강 관련 시나리오에서 사용됩니다.
무릎 통증에 대한 사용자의 첫 번째 질문부터 가까운 병원을 찾기 위한 늦은 밤의 긴급 검색까지, 검색 엔진과 AI 도우미는 점점 더 의료 서비스의 최전선 방어선이 되어가고 있습니다.
바로 지난주, 마이크로소프트가 MAI-DxO를 출시했습니다. 그리고 이 AI 시스템은 의사들보다 훨씬 뛰어난 성능을 보입니다.
연구진은 New England Journal of Medicine에 매주 발표되는 실제 사례 기록을 벤치마크로 사용했습니다.
실험 결과에 따르면, 마이크로소프트의 AI 진단 오케스트레이터(MAI-DxO)는 NEJM 사례를 진단할 때 정확도가 85%였으며, 이는 실험에 참여한 경험이 풍부한 인간 의사의 진단 정확도보다 4배 이상 높은 수치입니다.
게다가 MAI-DxO의 비용은 인간 의사보다 저렴합니다.
Microsoft: 의료 ASI로 가는 길
NEJM은 매주 "매사추세츠 종합병원 사례 기록"을 발행하는데, 여기에는 환자의 진단 및 치료 과정 전체가 자세히 기록되어 있습니다.
이런 경우는 대개 진단하기가 매우 어렵고, 최종 판단을 내리려면 여러 전문가와 일련의 검사가 필요한 경우가 많습니다.
NEJM: New England Journal of Medicine, 세계에서 가장 권위 있는 의학 저널 중 하나
그렇다면 AI는 이런 복잡한 사례에서 어떤 성능을 보일 것인가?
이 문제를 탐구하기 위해 Microsoft 연구팀은 NEJM 사례를 기반으로 SD 벤치(Sequential Diagnosis Benchmark)라는 일련의 대화형 진단 과제를 설계했습니다.
304건의 NEJM 사례가 단계별 진단 및 치료 시뮬레이션으로 전환되었습니다. 실제 환경과 마찬가지로 AI 모델이나 인간 의사가 단계별로 질문을 던지고, 검사를 준비하고, 결과를 얻고, 실시간으로 진단 아이디어를 업데이트하고, 최종적으로 결론을 도출할 수 있습니다. 최종 결론은 NEJM에서 제공하는 표준 답변과 비교됩니다.
각 테스트 요청은 실제 의료 자원 소비를 시뮬레이션하기 위해 가상 수수료를 생성했습니다. 이를 바탕으로 연구진은 진단 정확도와 자원 효율성이라는 두 가지 핵심 관점에서 모델을 평가했습니다.
그림 1: 순차적 진단 문제를 추론하고 해결하는 AI 에이전트의 개략도
다음과 같은 초기 사례 정보를 입력합니다.
29세 여성이 인후통, 인두 주위 부종, 출혈로 병원에 입원했습니다. 항균제 치료 후에도 증상이 호전되지 않았습니다.
"순차적 진단" 프로세스에 따르면 AI는 다음과 같이 추론하기 시작합니다.
(1) 환자의 상태 검토
(2) 다음으로 AI는 다음 영역을 포함하는 의료 인터뷰를 시작합니다: 과거 병력, 약물 복용력, 악성 종양 징후, 바이러스 감염력, 치과 병력, 출혈 경향, 정기 검사(혈액 검사, 응고 등) 및 영상 검사(경부 MRI 등).
(3) 가상의사 전문가 그룹 내부 논의
(4) 각 항목을 체크하고 진단을 업데이트합니다.
(5) AI 시스템이 진단 결론을 도출한다
(6) NEJM 권위 진단 결과 및 전문가 검토 의견과의 비교
아래 영상에서는 프로젝트 리더가 기본적인 프로세스를 소개합니다.
정확한 진단을 향해
연구진은 뉴잉글랜드 의학 저널(NEJM)에 게재된 304건의 실제 사례를 대상으로 가장 대표적인 생성 AI 모델에 대한 종합적인 평가를 수행했습니다. 평가에 사용된 주요 모델로는 GPT, Llama, Claude, Gemini, Grok, DeepSeek 등이 있습니다.
논문 링크: https://arxiv.org/abs/2506.22405v2
연구원들은 이러한 모델을 벤치마킹하는 것 외에도 Microsoft AI Diagnostic Orchestrator(MAI-DxO)도 설계했습니다.
다양한 진단 아이디어를 통해 복잡한 사례를 공동으로 처리하는 여러 가상 의사로 구성된 협업 팀을 시뮬레이션하는 시스템입니다.
그림 5: MAI-DxO 오케스트레이션 시스템 개요
단일 모델과 비교했을 때 오케스트레이터는 다양한 소스의 데이터를 통합하는 데 더 효과적일 뿐만 아니라, 의료 환경이 변화함에 따라 더 큰 보안, 투명성, 적응성을 제공합니다.
이 모델 독립적인 아키텍처는 시스템의 감사 과 복원력을 향상시킵니다. 둘 다 리스크 높고 빠르게 진화하는 임상 시나리오에 매우 중요합니다.
평가 결과는 MAI-DxO가 모든 모델의 진단 성능을 크게 향상시켰음을 보여줍니다. MAI-DxO와 OpenAI의 o3 모델을 결합했을 때 가장 우수한 성능을 보였으며, NEJM 사례에서 진단 정확도는 85.5%였습니다.
비교를 위해, 이 실험은 5년에서 20년의 임상 경험을 가진 미국과 영국의 현직 의사 21명도 평가했습니다. 동일한 과제에서 그들이 완료한 사례의 평균 정확도는 20%에 불과했습니다.
MAI-DxO는 구성 가능하며 비용 상한을 설정할 수 있으므로 진단 과정에서 "비용 대 가치" 균형을 탐색할 수 있습니다.
제약이 없다면 AI는 비용, 환자 경험, 진단 및 치료 지연 여부와 관계없이 가능한 모든 검사를 처방하려는 유혹에 빠질 수 있습니다. 연구 결과, MAI-DxO는 의사나 단일 모델보다 정확도가 높았을 뿐만 아니라 전체 검사 비용도 더 낮았습니다.
다음 산점도는 "진단 정확도"와 "평균 검사 비용" 측면에서 다양한 AI 모델을 비교합니다. 그림에서 MAI-DxO 곡선은 가장 우수한 성능을 보이는 왼쪽 상단 영역에 위치하며, 빨간색 십자 표시는 인간 의사의 평균 수준을 나타냅니다.
AI+의사: 비싼 의료 서비스와 작별하는 첫걸음
의사들은 종종 전문 지식의 폭과 깊이 중 하나를 선택합니다. 예를 들어, 일반의는 연령대와 여러 질환에 걸쳐 광범위한 문제를 대면 반면, 전문의는 단일 질병이나 질환에 집중합니다.
그러나 NEJM 사례의 복잡성은 한 명의 의사의 능력을 훨씬 뛰어넘습니다. AI는 이러한 복잡성에 제한받지 않고 폭과 깊이를 모두 고려할 수 있습니다. 또한, 여러 측면에서 AI의 임상 추론 능력은 인간 의사를 능가했습니다.
이러한 기능은 환자가 일상적인 건강 문제를 직접 관리할 수 있도록 지원할 뿐만 아니라 의사에게 의사 결정 지원을 제공하여 의료에 혁명을 일으킬 수 있는 잠재력을 가지고 있습니다.
현재 미국의 의료비는 GDP의 약 20%를 차지하는데, 이 중 4분의 1은 비효율적인 지출입니다.
AI는 이러한 낭비를 줄이는 데 중요한 역할을 할 것으로 기대됩니다.
이는 의사를 대체하는 것이 아니라, AI+의사, 공동진단이라는 새로운 의료 공동거버넌스 모델을 여는 것입니다.
참고: https://www.reddit.com/r/ChatGPT/comments/1lrmom4/chatgpt_solved_a_10_year_problem_no_doctors_could/
https://x.com/rohanpaul_ai/status/1939800536121057652
https://x.com/rohanpaul_ai/status/1941321376838951320
https://microsoft.ai/new/the-path-to-medical-superintelligence/
https://www.cdc.gov/folic-acid/data-research/mthfr/index.html
본 기사는 위챗 공개 계정 "Xinzhiyuan" 에서 발췌하였으며, 저자는 Xinzhiyuan이고, 36Kr에서 허가를 받아 게시하였습니다.




