ChatGPT Health를 출시한 지 6일 만에 OpenAI는 자체 의료 서비스 벤치마크에서 다른 업체에 추월당했습니다.

avatar
ME News
01-14
이 기사는 기계로 번역되었습니다
원문 표시
인공지능 비서에게 건강에 대해 물어본 적이 있나요?

기사 작성자: 리위안

기사 출처: MarsBit

저처럼 AI를 많이 사용하는 사람이라면 아마 한 번쯤 사용해 봤을 겁니다.

OpenAI가 제공한 데이터에 따르면, 건강은 ChatGPT의 가장 일반적인 사용 사례 중 하나가 되었으며, 전 세계적으로 매주 2억 3천만 명 이상의 사람들이 건강 및 웰빙 관련 질문을 하고 있습니다.

따라서 2026년으로 접어드는 지금, 의료 분야는 인공지능 분야에서 치열한 경쟁이 벌어지는 격전지가 될 조짐을 보이고 있습니다.

1월 7일, OpenAI는 사용자가 전자 의료 기록과 다양한 건강 애플리케이션을 연결하여 더욱 맞춤화된 의료 답변을 받을 수 있도록 하는 ChatGPT Health를 출시했고, 1월 12일에는 Anthropic이 의료 시나리오에서의 새로운 모델의 기능을 강조하며 Claude for Healthcare를 즉시 출시했습니다.

흥미롭게도 이번에는 중국 기업들이 뒤처지지 않았습니다. 오히려 선두를 차지할 태세인 듯 보였습니다.

1월 13일, 바이촨 인텔리전스는 자사의 바이촨 M3 모델을 출시했다고 발표했습니다. 이 모델은 오픈AI가 공개한 의료 평가 벤치마크인 헬스벤치에서 오픈AI의 GPT-5.2 High를 능가하며 최첨단(SOTA) 성능을 달성했습니다.

의료 분야에 대한 전폭적인 투자를 선언한 후 수많은 의구심에 직면했던 바이촨 인텔리전트가 마침내 그 역량을 입증한 것으로 보입니다. 긱파크는 왕샤오촨 대표와의 특별 인터뷰를 통해 M3 모델의 역량과 의료 분야 AI의 미래에 대한 바이촨 인텔리전트의 견해를 들어보았습니다.

01 처음으로 건강 관련 테스트 세트에서 OpenAI를 능가했습니다.

새롭게 출시된 M3 모델의 가장 인상적인 성과 중 하나는 OpenAI가 발표한 의료 평가 벤치마크 세트인 HealthBench에서 OpenAI의 GPT-5.2 High를 능가하여 최첨단(SOTA) 성능을 달성했다는 점입니다.

SOTA 헬스벤치, 헬스벤치 하드 및 환각 평가

헬스벤치(Healthbench)는 오픈AI가 2025년 5월에 공개한 의료 평가 데이터셋입니다. 60개국 262명의 의사가 공동으로 구축했으며, 5,000개의 매우 현실적인 다중 턴 의료 대화로 구성되어 있습니다. 이는 세계에서 가장 권위 있고 현실적인 임상 평가 데이터셋 중 하나입니다.

오픈AI의 모델은 출시 이후 꾸준히 최고 성능을 자랑해 왔습니다.

이번에 바이촨 인텔리전스의 차세대 오픈소스 의료 빅데이터 모델인 바이촨-M3가 종합 점수 65.1점을 획득하며 세계 1위를 차지했습니다. 특히 복잡한 의사결정 능력을 평가하는 헬스벤치 하드 테스트에서도 신기록을 세우며 우승을 거머쥐었습니다.

바이촨은 또한 환각 발생률 테스트 결과를 발표했습니다. M3 모델은 3.5%의 환각 발생률을 달성했는데, 이는 세계 최저 수준입니다.

여기서 주목할 점은 이 환각 발생률이 외부 검색 도구에 의존하지 않고 순수 모델 설정에서만 계산된 의학적 환각 발생률이라는 것입니다.

바이촨 인텔리전스는 이 두 가지 목표를 달성하는 핵심은 의료 분야에 적합한 강화 학습 알고리즘을 도입하는 데 있다고 밝혔습니다.

바이촨은 M3 모델에 사실 인식 강화 학습(Fact Aware RL) 기술을 최초로 적용하여 모델이 상투적인 표현을 사용하거나 엉뚱한 말을 하는 것을 방지하는 효과를 얻었습니다.

이는 실제로 의료 분야에서 매우 중요한 요소입니다.

최적화되지 않은 모델에 의학적 질문을 하면 두 가지 유형의 문제가 발생할 가능성이 높습니다. 하나는 모델이 환자의 증상을 임의로 만들어내고 질병을 추측하는 것이고, 다른 하나는 의미가 모호해져서 결국 의사의 진료가 필요하다는 결론을 내리는 것입니다. 이는 의사와 환자 모두에게 도움이 되지 않습니다.

이는 많은 모델이 순수 착각률을 최적화 목표로 사용하기 때문인데, 이 경우 모델은 단순하고 정확한 사실들을 축적함으로써 전체 착각률을 희석시킬 수 있습니다. 바이촨은 의미론적 클러스터링과 중요도 가중치 부여 메커니즘을 도입했습니다. 클러스터링은 중복되는 진술의 간섭을 제거하고, 가중치 부여는 핵심적인 의학적 결론에 더 높은 가중치를 부여합니다.

동시에, 단순히 환각에 높은 가중치를 부여하는 것만으로는 모델이 "말을 적게 하고 실수를 줄이는" 보수적인 전략에 치우치기 쉽습니다. 따라서, 사실 인식 강화 학습 알고리즘은 모델의 현재 능력 수준에 따라 이 두 가지 목표의 균형을 적응적으로 맞추는 동적 가중치 조정 메커니즘을 포함합니다. 능력 구축 단계에서는 의학 지식 학습 및 표현에 초점을 맞추고(높은 작업 가중치), 능력이 성숙해짐에 따라 사실적 제약을 점차 강화합니다(환각 가중치 증가).

온라인 검색이 가능한 경우, 바이촨은 다중 검색 기반의 온라인 검증 모듈 추가하고, 방대한 양의 의학 지식을 효율적으로 정리하기 위한 캐싱 시스템을 도입했습니다.

02. 진단 능력이 인간 의사의 능력을 뛰어넘어 실용적인 단계에 진입했습니다.

하지만 헬스벤치에서 오픈아이얼을 제친 것이 이번 행사의 유일한 하이라이트는 아니었습니다.

더욱 흥미로운 점은 바이촨이 자체적으로 SCAN-bench 벤치마크 데이터셋을 구축했다는 것입니다. OpenAI 차트를 장악하고 있는 기존 벤치마크 데이터셋과 비교했을 때, 바이촨이 직접 만든 이 데이터셋은 바이촨 인텔리전스가 의료 분야에서 최적화하고자 하는 방향을 더욱 잘 보여줄 수 있습니다.

이번에 바이촨이 구축한 평가 데이터 세트의 핵심은 "종합 상담 역량" 최적화에 있습니다. 이는 바이촨 자체 실험 결과를 통해 얻은 통찰력에 따른 것으로, 상담 정확도가 2% 증가할 때마다 치료 결과의 정확도가 1% 증가한다는 사실입니다.

다시 말해, "AI가 질문에 답할 수 있는지 여부"에 주로 초점을 맞추는 OpenAI의 HealthBench와 달리, BaiChuan의 SCAN-bench는 AI가 질의응답 과정에서 효과적인 정보를 얻고 정확한 진단 결과와 의학적 소견을 제공할 수 있는지 여부를 평가하는 것을 목표로 합니다.

일반적으로 인공지능 비서에게 질문할 때 단순히 "당신은 경험 많은 의사입니다"라고 말하는 것만으로는 좋은 결과를 얻기 어렵습니다. 이는 실제 의사들이 고도로 표준화된 진료 과정을 거치기 때문인데, 바이촨은 이를 안전 계층화(Safety Stratification), 명확성(Clarity Matters), 연관 및 탐구(Association & Inquiry), 규범적 프로토콜(Normative Protocol)의 네 가지 원칙인 SCAN으로 요약했습니다.

바이촨대학교는 SCAN 원칙을 기반으로 의학 교육에서 오랫동안 사용되어 온 OSCE(객관적 구조화 임상 시험) 방법을 활용하고 150명 이상의 일선 의사들과 협력하여 SCAN 벤치 평가 시스템을 구축했습니다. 이 시스템은 진단 및 치료 과정을 병력 수집, 보조 검사, 정확한 진단의 세 단계로 나누고, 역동적이고 다단계적인 평가를 통해 진료부터 진단까지 의사의 전 과정을 완벽하게 시뮬레이션합니다. 또한 각 단계에서 더 나은 결과를 얻도록 모델을 최적화합니다.

바이촨은 또한 SCAN-Benz를 이용한 M3 모델의 평가 결과를 공개했습니다.

결과는 상당히 흥미로웠습니다. 바이촨은 모델을 실제 의사들과 비교했을 뿐만 아니라, 모델을 실제 의사들과도 비교했습니다. 네 가지 영역 모두에서 실제 의사들은 모델이 달성할 수 있는 수준에 미치지 못하는 것으로 나타났습니다.

GeekPark는 바이촨 팀에게 이 점에 대해 구체적으로 질문했고, 그들의 답변은 다음과 같았습니다. "이번 평가는 실제 전문의들이 참여하여 모델을 특정 사례와 비교하는 방식으로 진행되었습니다. 모델의 성공은 우선 뛰어난 인내심 덕분이었지만, 더욱 중요한 것은 탁월한 학제 간 지식 덕분이었습니다."

예를 들어, 한 사례에서 10세 아동은 재발성 발열을 겪었습니다. 발열은 매우 복잡한 의학적 현상입니다. 기침과 같은 폐 상태에 대해서만 질문하면 관절이나 비뇨기계의 심각한 문제를 간과하고 일반적인 감염으로 오진할 수 있습니다.

의사들은 대개 자신의 전문 분야 내 질병 치료에만 능숙합니다. 그렇기 때문에 복잡한 증상에는 전문가의 상담이 필요한 경우가 많고, 전문가들 역시 어렵고 복잡한 질병을 치료하기 위해 서적이나 관련 자료를 참고해야 하는 것입니다.

특별한 훈련 없이 단순히 의사 역할을 하는 사람들은 이러한 질문에 제대로 답하기 어려워하는 경우가 많습니다.

03 다음 단계: 점진적으로 소비자 대상(C-엔드) 제품 개발을 시작하고 보다 진지한 의료 시술을 발전시켜 나갑니다.

바이촨 인텔리전스에게 인간 의사의 수준을 뛰어넘는다는 것은 매우 중요한 의미를 지닙니다. 이는 AI가 실용화 단계를 넘어 실제 활용 사례에 적용될 수 있는 단계에 접어들었음을 의미하기 때문입니다.

1월 13일부터 사용자는 바이샤오잉 웹사이트와 앱에서 M3 모델이 제공하는 답변을 경험할 수 있습니다.

현재 웹사이트 디자인은 상당히 흥미롭습니다. 두 버전 모두 M3 모델을 기반으로 답변을 제공하지만, 의사용과 사용자용으로 구분되어 있습니다. 의사용 버전에서는 답변이 더 간결하고, 참고 문헌을 더 많이 인용하며, 다소 "비자연적"입니다. 환자용 버전에서는 모델이 거의 즉시 답을 제시하지 않고, 보다 구체적인 진단을 내리기 위해 추가 질문을 던집니다.

바이촨 인텔리전스는 모델의 사고 과정이 매우 흥미롭다고 언급했습니다. "모델이 생각하는 과정에서 '이 환자는 내 질문에 대답하지 않았지만, 그래도 물어봐야 해'라고 말하는 것을 자주 볼 수 있습니다. 심지어 설정된 최대 횟수를 초과하여 20번이나 질문을 던진 극단적인 경우도 있었습니다. 이는 학습 과정에서 모델이 영리하거나 설득력 있는 언어를 사용한다고 보상을 받는 것이 아니라, 충분한 핵심 정보를 얻고 정확한 진단을 내려야만 보상을 받기 때문입니다. 이것이 바로 우리가 모델을 학습시키는 방식과 다른 회사들이 모델을 학습시키는 방식의 중요한 차이점입니다."

최근 많은 AI 기업들이 의료 분야에 진출하기 시작했습니다. 바이촨 인텔리전스 역시 이러한 추세에 발맞춰 보다 심각한 의료 문제에 집중하는 것이 가장 큰 차별점이라고 생각합니다.

왕샤오촨은 "이는 바이촨이 시나리오를 선택할 때 단순히 가장 쉬운 시나리오만 고려하는 것이 아니라는 의미입니다. 오히려 바이촨은 기술력을 지속적으로 향상시키고 더욱 어려운 문제에 도전하는 것을 고집합니다."라고 말했다.

대표적인 예로, 바이촨은 향후 종양학 분야의 해결책을 우선시할 것이며, 심리적 치유는 상대적으로 낮은 우선순위를 둘 것입니다.

일반적으로 인공 관점(AI)은 심리 치료에 있어 더 간단하고 쉽게 적용할 수 있다는 인식이 널리 퍼져 있습니다. 하지만 바이촨의 견해는 다릅니다. 그들은 종양학 분야가 더 엄격한 과학적 근거를 갖추고 있다고 주장합니다. 종양학 분야에서는 AI가 더 큰 의학적 성과를 거두어 인간 의사의 수준에 도달하거나 이를 능가할 가능성이 높다는 것입니다. 반면 심리학 분야는 이러한 확실한 과학적 기반이 부족하다는 것입니다.

예를 들어, 일부 기업은 의사의 AI 복제본을 만드는 것을 선택하지만, 왕샤오촨은 바이촨(바이촨을 운영하는 회사)이 추구하고자 하는 방향은 이것이 아니라고 생각합니다. 의사의 복제본은 의사의 숙련도를 완벽하게 복제할 수 없을 뿐더러 능가할 수도 없습니다. 그러한 AI는 결국 겉치레와 고객 확보 도구에 불과할 뿐, 진정한 의미의 의료 서비스 발전에 기여할 수 없을 것입니다.

이처럼 진지함을 중시하는 태도는 바이촨의 사업 결정에 지대한 영향을 미쳤습니다.

이는 왕샤오촨이 차세대 의료 AI의 근본적인 문제에 대해 제시한 생각과 직접적으로 연결됩니다. 그는 이 단계에서 가장 중요한 과제는 AI 역량 강화에 기반하여 점진적으로 더 많은 의료 서비스를 제공하는 것이라고 믿습니다.

중국은 오랫동안 단계별 의료 시스템과 일반의 제도를 장려해 왔습니다. 이러한 제도의 원래 의도는 일반 시민들이 먼저 지역 차원에서 의사의 진료를 받을 수 있도록 하여, 진료 예약의 어려움, 긴 대기 시간, 대형 병원의 과밀 문제를 해결하는 것이었습니다.

이 시스템을 구현하기 어려운 근본적인 이유는 의료 자원의 부족입니다. 일차 의료기관에는 고도로 숙련된 의사가 부족합니다. 사람들은 일차 의료기관에서 제공하는 의료 서비스에 대한 신뢰가 부족하기 때문에 단순한 감기에도 최고 수준의 병원에서 줄을 서서 기다립니다.

바로 이 지점에서 의료 AI가 중요한 역할을 합니다. 대규모 모델은 최첨단 의료 지식을 대규모로 보급할 수 있도록 해줍니다. 이를 통해 지역 사회 전체와 모든 가정이 최고 수준의 병원 전문의와 동일한 진단 및 치료 역량을 갖출 수 있도록 함으로써, 의료 서비스 공급 격차를 해소합니다.

장기적으로 볼 때, 이는 더 광범위한 영향을 미쳐 의료 분야의 의사결정권을 의사에서 환자에게로 옮길 가능성이 있습니다. 전통적인 의료 환경에서 환자는 혜택을 받지만, 의사결정권은 의사에게 집중되어 있어 종종 제한적입니다. 이러한 권력 불균형은 의사소통 비용 증가와 치료 과정에서의 불편함으로 이어지는 경우가 많습니다.

바이촨은 AI를 활용하여 환자들이 양질의 의료 자원에 더 쉽게 접근할 수 있도록 하는 것을 목표로 하고 있습니다. 왕샤오촨은 "많은 사람들이 의학은 너무 복잡해서 환자들이 절대 이해할 수 없다고 생각합니다. 하지만 미국 사법 제도의 배심원 제도를 생각해 보세요. 법 또한 매우 전문적인 분야이고, 일반인 배심원들은 법을 이해하지 못합니다. 그래서 판사, 변호사, 검사가 토론을 이끌고 논리를 명확하게 제시하여 일반인들이 유죄 또는 무죄를 판단하고 논리에 따라 정상적인 판단을 내릴 수 있도록 해야 합니다."라고 말했습니다.

이것이 바로 바이촨 인텔리전스가 단순한 시나리오에 집중하지 않고, 더욱 복잡하고 심각한 의료 치료법으로 끊임없이 발전하고자 하는 이유 중 하나입니다.

왕샤오촨은 매우 복잡한 문제를 해결하는 것이 상업적으로 가장 큰 보상을 가져다주는 일인지 묻는 질문에 심오한 답변을 내놓았다.

그는 감기나 발열 같은 사소한 문제를 해결하는 것만으로는 사용자들 사이에서 충분한 신뢰를 구축하기 어렵다고 생각합니다. 의료 산업은 신뢰에 크게 의존하는 산업입니다. 인공지능이 심각한 질병과 같은 복잡한 문제를 해결할 수 있을 때 비로소 진정한 신뢰의 기반이 마련될 수 있습니다.

비즈니스 관점에서 볼 때, 심각한 건강 문제를 대면 환자들은 고품질 AI 서비스에 기꺼이 비용을 지불할 의향이 더 큽니다. 이러한 신뢰는 상업적 수익을 위한 필수 조건일 뿐만 아니라, 의료 분야에서 AI를 대규모로 적용할 수 있는 핵심적인 이유이기도 합니다.

보다 근본적인 의미에서, 바이촨 인텔리전스와 왕샤오촨 본인에게 있어 의료는 여전히 인공 일반 지능(AGI)에 가까운 길을 의미합니다.

왕샤오촨은 인공지능이 인문학, 과학, 공학, 예술 등 여러 분야에서 이미 실질적인 해결책을 찾아냈지만, 의학은 매우 독특한 분야라고 생각한다. 인류의 의학 탐구는 아직 끝나지 않았으며, 인공지능 또한 이 분야에서 여전히 탐구 단계에 머물러 있다는 것이다.

바이촨의 로드맵은 매우 명확합니다. 첫째, AI를 통해 진단 효율성을 향상시켜 현재 의료 자원 부족 문제를 해결하는 것을 목표로 합니다. 이러한 기반 위에 바이촨은 환자들과의 깊은 신뢰를 구축하는 데 전념하고 있습니다. 환자들이 장기적인 의료 상담에 AI 도구를 기꺼이 활용할 때, AI는 이러한 지속적인 상호작용을 통해 실제적이고 질 높은 의료 데이터를 축적할 수 있습니다.

이 데이터의 궁극적인 목표는 생명에 대한 수학적 모델을 구축하는 것입니다. 이는 인간 의사들이 아직 완전히 탐구하지 못한 분야이며, 인공지능이 최초로 이를 달성할 가능성이 매우 높습니다. 생명의 본질에 대한 모델이 완성된다면, 이는 일반 인공지능을 더 높은 수준으로 발전시키는 데 중요한 발걸음이 될 것입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트