안개를 뚫고 마침내 OpenAI 모델 매개변수가 공개되었습니다! Microsoft University of Washington의 의학 논문에서 실수로 GPT-4, GPT-4o 및 o1 시리즈 모델 매개변수가 노출되었습니다. 모두를 놀라게 한 것은 GPT-4o mini가 8B에 불과하다는 점이었습니다.
Microsoft가 의료 분야의 논문에서 OpenAI 모델의 모든 매개변수를 "노출"할 것이라고 누가 생각이나 했을까요?
- GPT-4 매개변수는 약 1조 7600억 개
- GPT-4o 매개변수는 약 2,000억 개입니다.
- GPT-4o 미니 매개변수는 약 80억 개입니다.
- o1-preview 매개변수는 약 3,000억 개입니다.
- o1-mini 매개변수는 약 1,000억 개입니다.
- 클로드 3.5 소네트 매개변수는 약 1,750억 개
연구원: 매개변수는 추정치입니다.
모두를 믿을 수 없게 만드는 것은 GPT-4o 시리즈에는 매개변수가 너무 적고 미니 버전에는 8B만 있다는 것입니다.
일부 네티즌들은 4o mini가 약 40B 매개변수를 가진 MoE 모델이며, 그 중 활성화 매개변수가 8B라고 추측했습니다.
왜냐하면 그는 4o mini가 8B 모델보다 분명히 더 많은 지식을 학습하고 동시에 매우 빠르게 작동한다는 것을 발견했기 때문입니다.
또한 GPT-4o는 MoE 아키텍처이므로 OpenAI는 미니 버전에서도 동일한 아키텍처를 사용했을 수 있습니다.
또 다른 네티즌은 클로드 3.5 소네트의 파라미터가 GPT-3 다빈치와 동일하다고 놀라워했다.
이 문서에서 Microsoft와 워싱턴 대학교 팀은 임상 기록의 의료 오류 감지 및 수정을 위해 설계된 랜드마크 평가 벤치마크인 MEDEC1을 발표했습니다.
논문 주소: https://arxiv.org/abs/2412.19260
벤치마크는 진단, 관리, 치료, 투약, 원인 인자 등 5가지 유형의 오류를 다루고 있습니다.
MEDEC의 데이터 소스는 미국 3개 병원 시스템에서 488개의 임상 노트를 수집하여 총 3,848개의 임상 텍스트를 수집했습니다.
이러한 데이터는 이전에 어떤 LLM에서도 다루어진 적이 없으므로 평가의 신뢰성과 신뢰성을 보장한다는 점을 언급할 가치가 있습니다. 현재 이 데이터세트는 MEDIQA-CORR 공유 작업에 사용되어 17개 참여 시스템의 성능을 평가했습니다.
연구팀은 데이터세트 MEDEC를 획득한 후 의료 오류 감지 및 수정 작업에서 o1-preview, GPT-4, Claude 3.5 Sonnet, Gemini 2.0 Flash 등을 포함한 현재 가장 발전된 모델에 대한 포괄적인 테스트를 수행했습니다.
동시에 두 명의 전문 의사를 초빙해 동일한 오류 탐지 작업을 수행하고 최종적으로 AI와 인간 의사의 결과를 비교했다.
최신 LLM은 의료 오류 감지 및 수정 분야에서 우수한 성능을 발휘하지만 인간 의사와 비교하면 AI는 여전히 뚜렷한 격차가 있는 것으로 나타났습니다.
이는 MEDEC이 충분히 도전적인 평가 벤치마크라는 측면에서도 확인됩니다.
그 논문은 무엇에 관한 것인가요?
미국의 한 의료기관이 실시한 조사에 따르면 임상노트를 읽은 환자 5명 중 1명은 오류를 발견했다고 보고한 것으로 나타났다.
이들 환자 중 40%는 이러한 오류를 심각한 오류로 평가했으며, 가장 일반적인 오류 범주는 현재 또는 과거 진단과 관련되어 있습니다.
동시에, 이제 LLM이 완료하는 의료 문서 작업(임상 기록 생성 등)이 점점 더 많아지고 있습니다.
그러나 의료 문서화 작업에 LLM을 사용할 때의 주요 과제 중 하나는 "환각"을 생성하고 허위 내용이나 잘못된 정보를 출력하여 임상 의사 결정에 직접적인 영향을 미치기 쉽다는 것입니다.
결국 의료는 작은 문제가 아니며, 한 단어의 차이가 삶과 죽음을 의미할 수 있습니다.
이러한 리스크 줄이고 의료 콘텐츠 생성에서 LLM의 안전성을 보장하려면 엄격한 검증 방법이 중요합니다. 이 검증에는 모델 검증을 통해 완전 자동화가 달성될 수 있는지 평가하기 위한 관련 벤치마크가 필요합니다.
검증 과정에서 핵심 작업은 임상 텍스트의 의학적 오류를 감지하고 수정하는 것입니다.
인간 의사의 관점에서 생각하고 이러한 오류를 식별하고 수정하려면 의료 전문 지식과 배경뿐만 아니라 때로는 광범위한 경험이 필요합니다.
이전에는 (상식적인) 오류 감지에 대한 대부분의 연구는 범용 영역에 초점을 맞춰 왔습니다.
이를 위해 Microsoft University of Washington 팀은 새로운 데이터 세트인 MEDEC를 도입하고 다양한 주요 LLM(예: Claude 3.5 Sonnet, o1-preview 및 Gemini 2.0 Flash)에 대한 실험을 수행했습니다.
"우리가 아는 한, 이것은 임상 노트의 자동 오류 감지 및 수정에 대한 최초의 공개적으로 이용 가능한 벤치마크이자 연구입니다."라고 저자는 말합니다.
MEDEC 데이터 세트
MEDEC 데이터 세트에는 다양한 의료 전문 분야의 임상 텍스트로 구성된 총 3,848개의 새로운 데이터 세트가 포함되어 있습니다. 주석 작업은 8명의 의료 주석자가 완료했습니다.
앞서 언급한 대로 이 데이터세트에는 다음을 포함한 5가지 유형의 오류가 포함됩니다.
- 진단: 제공된 진단이 정확하지 않습니다.
- 관리: 제공된 관리에 대한 다음 단계가 정확하지 않습니다.
- 약물요법: 권장 약물이 정확하지 않습니다.
- 치료: 권장되는 치료가 부정확함
- 원인 유기체: 표시된 병원성 유기체 또는 병원체가 정확하지 않습니다.
(참고: 이러한 오류 유형은 의료 위원회 시험에서 가장 일반적인 유형의 문제를 분석한 후 선택되었습니다.)
위의 그림 1은 MEDEC 데이터 세트의 예를 보여줍니다. 각 임상 텍스트는 정확하거나 방법 #1(MS)과 방법 #2(UW) 중 하나에 의해 발생한 오류를 포함합니다.
데이터 생성 방법 #1(MS)
이 접근 방식에서 저자는 MedQA 컬렉션의 의료 위원회 시험 질문을 활용합니다.
의학적 배경을 가진 4명의 주석자는 이번 시험에서 의학적 서사 및 객관식 문제를 참조하고, 원본 문제와 답을 확인한 후 장면 텍스트에 잘못된 답을 삽입하고 오류나 모호한 정보가 포함된 문답 쌍을 제외했습니다.
의료 주석자는 다음 지침을 따릅니다.
의료 서술형 객관식 문제를 사용하여 시나리오 텍스트에 오답을 삽입하고 텍스트 중간 또는 끝에 오류가 삽입된 두 가지 버전을 만듭니다.
의료 서술형 객관식 질문을 사용하여 그림 2(정답을 포함하는 생성된 텍스트)와 같이 정답을 시나리오 텍스트에 삽입하여 올바른 버전을 생성합니다.
자동으로 생성된 텍스트가 원래 시나리오와 그에 포함된 답변에 충실한지 수동으로 확인하세요.
마지막으로 연구자들은 두 가지 다른 시나리오(텍스트 중간 또는 끝에 오류가 삽입됨)에서 각 메모의 올바른 버전과 잘못된 버전을 무작위로 선택하여 최종 데이터 세트를 구성했습니다.
데이터 생성 방법 #2(UW)
여기에서 저자는 2009년부터 2021년까지 워싱턴 대학교(UW) 병원 시스템 3곳(Harborview Medical Center, UW Medical Center 및 Seattle Cancer Care Alliance)의 실제 임상 기록 데이터베이스를 사용했습니다.
연구진은 환자의 상태를 요약하고 치료의 기초를 제공한 17,453개의 진단 지원 기록 중 488개를 무작위로 선택했습니다.
4명의 의대생으로 구성된 팀이 244개의 기록에 수동으로 오류를 삽입했습니다.
초기 단계에서 각 레코드에는 QuickUMLS 4에서 UMLS(Unified Medical Language System) 개념으로 식별되는 여러 후보 엔터티로 주석이 추가됩니다.
주석자는 이러한 후보 엔터티에서 간결한 의료 엔터티를 선택하거나 새 텍스트 세그먼트(범위)를 생성할 수 있습니다. 그런 다음 클립에 다섯 가지 오류 유형 중 하나로 태그 됩니다.
다음으로 Annotator는 Fragment를 유사하지만 다른 개념으로 대체하고, 오류 버전은 Annotator가 직접 설계하거나 SNOMED 및 LLM 기반 방법으로 생성합니다. 이 접근 방식은 주석자에게 대체 개념을 제안하지만 입력 텍스트에 의존하지 않습니다. 의료 주석자는 궁극적으로 텍스트에 삽입되는 개념이나 오류를 수동으로 결정합니다.
이 과정에서 각 오류 부분은 임상 노트의 다른 두 부분 이상과 모순되어야 하며 주석자는 도입된 각 오류에 대해 합리적인 설명을 제공해야 합니다.
저자는 Philter5 도구를 사용하여 오류가 삽입된 후 임상 메모를 자동으로 비식별화했습니다.
그 후, 비식별화의 정확성을 보장하기 위해 2명의 주석자가 각 메모를 독립적으로 검토했습니다. 의견 차이가 있는 경우 세 번째 주석자가 판단했습니다.
아래 표 1은 훈련 세트, 검증 세트, 테스트 세트의 구분을 보여줍니다. 그 중 MS 훈련 세트에는 2,189개의 임상 텍스트가 포함되어 있고, MS 검증 세트에는 574개의 임상 텍스트가 포함되어 있으며, UW 검증 세트에는 160개의 임상 텍스트가 포함되어 있습니다.
MEDEC 테스트 세트는 MS 컬렉션의 597개 임상 텍스트와 UW 데이터세트의 328개 임상 텍스트로 구성됩니다. 테스트 세트에서는 메모의 51.3%에 오류가 포함되어 있었고, 메모의 48.7%는 정확했습니다.
아래 그림 3은 데이터 세트(진단, 관리, 치료, 투약, 원인 물질)에서 오류 유형의 분포를 보여줍니다.
의료 오류 감지 및 수정 방법
의료 오류 감지 및 수정 작업에 대한 모델 성능을 평가하기 위해 저자는 프로세스를 세 가지 하위 작업으로 나누었습니다.
하위 작업 A: 예측 오류 플래그(0: 텍스트에 오류가 없는 경우, 1: 텍스트에 오류가 있는 경우)
하위 작업 B: 오류가 태그 텍스트에 대해 오류가 포함된 문장을 클레임 . (-1: 텍스트에 오류가 없는 경우, 문장 ID: 텍스트에 오류가 있는 경우)
하위 작업 C: 오류가 포함된 태그 텍스트에 대해 수정된 문장을 생성합니다. (NA: 텍스트에 오류가 없는 경우, 생성된 문장/수정된 내용: 텍스트에 오류가 있는 경우)
비교를 위해 그들은 두 가지 서로 다른 단서 단어를 사용하여 다음 세 가지 하위 작업에서 모델 성능을 평가하기 위한 원하는 출력을 생성하는 LLM 기반 솔루션을 구축했습니다.
팁 #1:
다음은 환자에 대한 의학적 설명입니다. 귀하는 이러한 임상 문헌을 검토하는 숙련된 의사입니다. 텍스트가 정확하거나 오류가 포함되어 있습니다. 텍스트의 각 줄은 문장입니다. 각 줄은 문장 ID로 시작하고 그 뒤에 파이프 기호, 확인해야 할 문장이 옵니다. 본문의 모든 문장을 살펴보세요. 텍스트가 정확하면 CORRECT 출력이 반환됩니다. 치료, 관리, 병인 또는 진단과 관련된 텍스트에 의학적 오류가 있는 경우 오류가 포함된 문장 ID를 반환하고 공백을 둔 다음 수정된 문장을 반환합니다. 오류를 찾고 수정하려면 의학적 지식과 추론 기술이 필요합니다.
프롬프트 #2: 첫 번째 프롬프트와 유사하지만 훈련 세트에서 무작위로 선택된 입력 및 출력 예제가 포함되어 있습니다.
여기에 예가 있습니다.
0 35세 여성이 손 통증과 경직을 호소하며 의사를 방문했습니다. 1 그녀는 가벼운 상부 호흡기 감염을 극복한 지 며칠 후인 6주 전에 통증이 시작되었다고 말했습니다. (…) 9 양손의 양측 X-ray에서는 왼손의 다섯 번째 중수지절관절 주위에 경미한 관절주위 골감소증이 나타났습니다. 10 메토트렉세이트를 투여하십시오.
이 예에서는 문장 번호 10: "메토트렉세이트를 투여하세요."에서 오류가 발생합니다. 다음과 같이 수정되었습니다. "프레드니손을 투여하세요." 출력은 다음과 같습니다. 10 1 프레드니손이 제공됩니다. 예제 끝.
실험 및 결과
언어 모델
연구원들은 최근 몇 가지 언어 모델에 대해 실험을 수행했습니다.
Phi-3-7B : 70억 개의 매개변수를 가진 소규모 언어 모델(SLM)입니다.
Claude 3.5 Sonnet(2024-10-22) : Claude 3.5 시리즈(약 1,750억 매개변수)의 최신 모델로, 다양한 인코딩, 비전 및 추론 작업에서 SOTA 성능을 보여줍니다.
Gemini 2.0 Flash : 최신/가장 발전된 Gemini 모델입니다. 다른 Google 모델(예: 의료용으로 설계된 Med-PaLM, 5,400억 개의 매개변수)은 아직 공개되지 않았습니다.
ChatGPT (약 1,750억 매개변수) 및 GPT-4 (약 1조 7,600억 매개변수)는 "고도 지능" 모델입니다.
"GPT-4 수준의 지능이지만 더 빠르다"를 제공하는 GPT-4o (약 2000억 매개변수) 및 특정 작업에 초점을 맞춘 소형 모델인 GPT-4o-mini(gpt-4o-2024-05-13) (약 8 10억 매개변수).
최신 o1-mini(o1-mini-2024-09-12) (약 1,000억 개의 매개변수) 및 o1-preview(o1-preview-2024-09-12) (약 3,000억 개의 매개변수)에는 "새로운 AI 기능"이 있습니다. , 복잡한 추론 작업을 처리할 수 있습니다.
대부분의 모델의 모수 수량은 추정치이며 주로 모델 성능을 이해하는 데 사용된다는 점은 주목할 가치가 있습니다. 일부 모델(예: Phi-3 및 Claude)에는 형식 문제를 수정하기 위해 소량의 자동 후처리가 필요합니다.
결과
아래 표 2는 의사의 수동 주석 결과와 위의 두 프롬프트 단어를 사용한 여러 최신 LLM 결과를 보여줍니다.
오류 플래그 탐지 측면에서 Claude 3.5 Sonnet은 70.16%의 정확도로 다른 방법을 능가했으며 오류 문장 탐지에서는 65.62%의 정확도를 달성했습니다.
o1-mini는 오류 플래그 감지에서 두 번째로 높은 정확도인 69.08%를 달성했습니다.
오류 수정 측면에서 o1-preview는 총점 0.698로 2위인 GPT-4 [P#2]의 0.639를 훨씬 뛰어 넘는 최고의 성능을 달성했습니다.
아래 표 3은 각 데이터 세트(MEDEC-MS 및 MEDEC-UW)에 대한 오류 감지 정확도 및 오류 수정 점수를 보여줍니다. 그중 MS 하위 집합은 Claude 3.5 Sonnet 및 Doctor #2에 대해 더 어려운 반면, UW 하위 집합은 o1-preview 및 Doctor #1에 대해 더 어렵습니다.
결과는 최첨단 LLM이 의사 평가에 비해 오류 감지 및 수정 성능이 우수하지만 이러한 작업에서는 여전히 인간 의사보다 열등하다는 것을 보여줍니다.
이는 이러한 오류 감지 및 수정 작업이 네트워크 및 의학 교과서에서 상대적으로 드물기 때문일 수 있습니다. 즉, LLM이 사전 훈련에서 관련 데이터를 접할 가능성이 낮기 때문일 수 있습니다.
이는 o1-preview의 결과에서 볼 수 있는데, 모델은 공개 임상 텍스트를 기반으로 구축된 MS 하위 집합의 오류 및 문장 탐지에서 각각 73%와 69%의 정확도를 달성한 반면, 개인 UW 컬렉션에서는 58%와 48%에 불과했습니다. 정확도를 달성했습니다.
또 다른 요인은 작업에 LLM이 아닌 기존 텍스트를 분석하고 수정해야 한다는 점인데, 이는 처음부터 새로운 답변 초안을 작성하는 것보다 더 어려울 수 있습니다.
아래 표 4는 오류 유형별(진단, 관리, 치료, 약물치료, 원인미생물)별 오류검출 회상 및 오류수정 점수를 나타낸 것이다.
o1-preview의 재현율은 Claude 3.5 Sonnet과 two doctor의 오류 플래그 및 문장 검출에 비해 현저히 높은 것을 확인할 수 있습니다. 그러나 정확도 결과를 종합한 결과(표 2 참조), 정확도에서 의사가 더 나은 성과를 낸 것으로 나타났습니다.
이러한 결과는 모델이 정확도에 심각한 문제가 있음을 나타내며 AI가 의사에 비해 많은 경우 오류(즉, 환각)의 존재를 과대 예측하고 있음을 나타냅니다.
또한 분류 성능과 오류 정정 생성 성능 간에 순위 차이가 있음을 결과에서도 보여줍니다.
예를 들어, 모든 모델 중에서 Claude 3.5 Sonnet은 오류 플래그와 문장 탐지 정확도에서 1위를 차지했지만 수정 생성 점수에서는 꼴찌를 기록했습니다(표 2 참조).
또한 o1-preview는 오류 감지 정확도에서 모든 LLM 중 4위를 차지하지만 수정 생성에서는 1위이자 훨씬 앞서 있습니다. 두 명의 의사 사이에서도 동일한 패턴이 관찰되었습니다.
위 현상은 교정 생성 작업의 어려움으로 설명할 수 있으며, 의학 텍스트의 동의어 및 유사점을 포착하는 데 있어 현재 SOTA 텍스트 생성 평가 지표의 한계를 반영할 수도 있습니다.
표 5는 Claude 3.5 Sonnet 및 GPT 모델에서 자동으로 생성된 참조 텍스트, 의사 주석 및 수정 예를 보여줍니다.
예를 들어, 두 번째 예에 대한 참조 수정은 환자가 브루톤 무감마글로불린혈증으로 진단되었음을 나타내는 반면, LLM에서 제공한 정답은 X-연관 무감마글로불린혈증(이 희귀 유전 질환의 동의어)을 언급합니다.
또한 일부 LLM(예: Claude)은 더 많은 설명과 함께 더 긴 답변/수정 사항을 제공합니다. 유사한 현상이 의사 주석에서도 발생합니다. 여기서 의사 #1은 의사 #2보다 더 긴 개정을 제공하고 두 의사는 일부 사례/사례에 대해 동의하지 않습니다. 이는 서로 다른 의사/전문가가 작성했다는 사실을 반영합니다. 임상의 스타일과 내용의 차이 메모.
의료 오류 감지 및 수정 관련 연구의 다음 단계에서는 신속한 단어로 더 많은 사례를 도입하고 사례를 최적화하는 것이 필요합니다.
저자 소개
임웬와이
Wen-wai Yim은 Microsoft의 수석 응용 과학자입니다.
그녀는 UCSD에서 생명공학 학사학위를, 워싱턴대학교에서 생명의학 및 건강정보학 박사학위를 취득했습니다. 연구 관심 분야는 임상 및 방사선학 기록에서 임상 사건 클레임 과 암 단계 예측입니다.
또한 그는 스탠포드 대학교에서 박사후 연구원으로 재직하면서 자유 형식 임상 기록에서 정보를 클레임 하고 이 정보를 전자 의료 기록의 메타데이터와 결합하는 방법을 개발했습니다.
그녀의 연구 관심분야는 임상 노트와 의학적 대화를 통한 임상 자연어 이해, 구조화된 데이터와 구조화되지 않은 데이터에서 임상 노트 언어 생성을 포함합니다.
푸 유주안
Yujuan Fu는 워싱턴대학교에서 의료정보학 박사과정을 밟고 있는 학생입니다.
이전에 그녀는 Shanghai Jiao Tong University에서 전기 및 컴퓨터 공학 학사 학위를, University of Michigan에서 데이터 과학 학사 학위를 받았습니다.
연구 분야는 건강 분야를 위한 자연어 처리입니다. 정보 추출, 요약, 상식 추론, 기계 번역, 사실 일관성 평가를 포함한 지침을 통해 대규모 언어 모델을 미세 조정합니다.
순 자오이
Zhaoyi Sun은 워싱턴 대학의 생물 의학 및 건강 정보학 박사 과정 학생입니다. 그녀는 UW-BioNLP 팀에 소속되어 있으며 Meliha Yetisgen 박사의 감독을 받고 있습니다.
이전에는 난징 대학교에서 화학 학사 학위를, 코넬 대학교에서 보건 정보학 석사 학위를 받았습니다.
그의 연구는 의료 Q&A 및 임상 노트의 오류 감지에 LLM을 적용하는 데 중점을 두고 있으며, 생체 의학 이미지와 텍스트를 결합한 다중 모드 딥 러닝 연구에 관심이 있으며 임상에서 자연어 처리 기술의 적용 효율성을 향상시키는 것이 목표입니다. 필드.
페이샤
Fei Xia는 워싱턴 대학교 언어학과 교수이자 UW/Microsoft 심포지엄의 공동 주최자입니다. 이전에는 IBM TJ Watson 연구소에서 연구원으로 근무했습니다.
그녀는 북경 대학교 컴퓨터 공학과에서 학사 학위를, 펜실베이니아 대학교 컴퓨터 정보 과학과에서 석사 및 박사 학위를 받았습니다.
Penn에 있는 동안 그녀는 중국 treebank 프로젝트의 팀 리더이자 XTAG 프로젝트의 팀원이었습니다. 박사 논문 지도교수는 Martha Palmer 박사와 Aravind Joshi 박사입니다.
참고자료:
https://x.com/koltregaskes/status/1874535044334969104
https://arxiv.org/pdf/2412.19260
이 기사는 WeChat 공개 계정 "Xin Zhiyuan" 에서 가져온 것입니다. 저자: Xinzhiyuan, 36 Krypton은 승인을 받아 게시되었습니다.






