Bài báo của Microsoft vô tình "lộ", toàn bộ thông số OpenAI bị rò rỉ, GPT-4o chỉ 200B, o1 300B

01-02

Bài viết này được dịch máy

Xem bản gốc

Sau khi vượt qua sương mù, các thông số của mô hình OpenAI cuối cùng đã được tiết lộ! Một bài báo y khoa của Đại học Microsoft ở Washington đã vô tình tiết lộ các thông số của sê-ri máy GPT-4, GPT-4o và o1. Điều khiến mọi người sốc là GPT-4o mini chỉ có 8B.

Ai mà ngờ được Microsoft lại “lộ” toàn bộ thông số của mô hình OpenAI trong một bài báo thuộc lĩnh vực y tế!

Thông số GPT-4 khoảng 1,76 nghìn tỷ
Thông số GPT-4o khoảng 200 tỷ
Thông số mini GPT-4o khoảng 8 tỷ
thông số o1-preview khoảng 300 tỷ
thông số o1-mini khoảng 100 tỷ
Thông số Claude 3.5 Sonnet khoảng 175 tỷ

Nhà nghiên cứu: Thông số là ước tính

Điều khiến mọi người không thể tin được là sê-ri GPT-4o có thông số quá ít, còn bản mini chỉ có 8B.

Một số cư dân mạng suy đoán rằng 4o mini là mẫu MoE có thông số khoảng 40B, trong đó thông số kích hoạt là 8B.

Bởi vì, anh thấy rằng 4o mini rõ ràng học được nhiều kiến thức hơn mẫu 8B, đồng thời chạy rất nhanh.

Ngoài ra, vì GPT-4o là kiến trúc MoE nên OpenAI có thể đã sử dụng kiến trúc tương tự trên phiên bản mini.

Một cư dân mạng khác ngạc nhiên cho rằng thông số của Claude 3.5 Sonnet tương đương với GPT-3 davinci.

Trong bài báo này, đội ngũ từ Microsoft và Đại học Washington đã đưa ra một tiêu chuẩn đánh giá tính bước ngoặt - MEDEC1, được thiết kế để phát hiện và sửa lỗi y tế trong các ghi chú lâm sàng.

Địa chỉ giấy: https://arxiv.org/abs/2412.19260

Điểm chuẩn bao gồm năm loại lỗi, bao gồm chẩn đoán, quản lý, điều trị, dùng thuốc và tác nhân gây bệnh.

Nguồn dữ liệu của MEDEC đã thu thập 488 ghi chú lâm sàng từ 3 hệ thống bệnh viện của Hoa Kỳ, tổng cộng là 3.848 văn bản lâm sàng.

Điều đáng nói là dữ liệu này chưa từng được bất kỳ LLM nào chạm tới trước đây, đảm bảo tính xác thực và độ tin cậy đánh giá. Hiện tại, dữ liệu này đã được sử dụng trong nhiệm vụ chia sẻ MEDIQA-CORR để đánh giá hiệu suất của 17 hệ thống tham gia.

Sau khi có được bộ dữ liệu MEDEC, đội ngũ nghiên cứu đã tiến hành thử nghiệm toàn diện trên các mẫu tiên tiến nhất hiện nay, bao gồm o1-preview, GPT-4, Claude 3.5 Sonnet, Gemini 2.0 Flash, v.v. trong nhiệm vụ phát hiện và sửa lỗi y tế.

Đồng thời, họ cũng mời hai bác sĩ chuyên nghiệp thực hiện nhiệm vụ phát hiện lỗi tương tự, và cuối cùng so sánh kết quả của AI và bác sĩ con người.

Người ta nhận thấy rằng LLM mới nhất hoạt động tốt trong việc phát hiện và sửa lỗi y tế, nhưng so với bác sĩ con người, AI vẫn có khoảng cách rõ ràng.

Điều này cũng khẳng định từ phía MEDEC là một tiêu chuẩn đánh giá đủ thách thức.

Bài báo viết về cái gì?

Một cuộc khảo sát từ một tổ chức y tế Hoa Kỳ cho thấy cứ năm bệnh nhân thì có một người đọc các ghi chú lâm sàng báo cáo đã phát hiện ra lỗi.

Bốn mươi phần trăm những bệnh nhân trong đó cho rằng những lỗi này là nghiêm trọng, với các loại lỗi phổ biến nhất liên quan đến chẩn đoán hiện tại hoặc quá khứ.

Đồng thời, ngày càng có nhiều nhiệm vụ tài liệu y tế (chẳng hạn như tạo ghi chú lâm sàng) được LLM hoàn thành.

Tuy nhiên, một trong những thách thức chính của việc sử dụng LLM cho nhiệm vụ tài liệu y tế là dễ tạo ra "ảo giác" và đưa ra một số nội dung hư cấu hoặc thông tin sai, ảnh hưởng trực tiếp đến việc ra quyết định lâm sàng.

Suy cho cùng, chăm sóc y tế không phải là vấn đề nhỏ, và một từ khác biệt có thể có nghĩa là sống hay chết.

Để giảm thiểu rủi ro này và đảm bảo sự an toàn của LLM trong việc tạo nội dung y tế, phương pháp xác minh nghiêm ngặt là rất quan trọng. Việc xác thực này yêu cầu các điểm chuẩn có liên quan để đánh giá liệu có thể đạt được tự động hóa hoàn toàn hay không bằng cách xác thực mô hình.

Trong quá trình xác nhận, nhiệm vụ chính là phát hiện và sửa các lỗi y tế trong văn bản lâm sàng.

Suy nghĩ từ góc độ của một bác sĩ con người, việc xác định và sửa chữa những lỗi này không chỉ đòi hỏi chuyên môn và bối cảnh y tế mà đôi khi còn cần cả kinh nghiệm sâu rộng.

Trước đây, hầu hết các nghiên cứu về phát hiện lỗi (thông thường) đều tập trung vào các lĩnh vực có mục đích chung.

Để đạt được mục tiêu này, đội ngũ Microsoft tại Đại học Washington đã giới thiệu một bộ dữ liệu mới - MEDEC và tiến hành thử nghiệm trên các LLM hàng đầu khác nhau (chẳng hạn như Claude 3.5 Sonnet, o1-preview và Gemini 2.0 Flash).

Các tác giả cho biết: “Theo hiểu biết của chúng tôi, đây là tiêu chuẩn và nghiên cứu công khai đầu tiên về phát hiện và sửa lỗi tự động trong ghi chú lâm sàng”.

Dữ liệu MEDEC

Bộ dữ liệu MEDEC chứa tổng cộng 3.848 bộ dữ liệu mới gồm các văn bản lâm sàng từ các lĩnh vực chuyên môn y tế khác nhau. Nhiệm vụ chú thích được hoàn thành bởi 8 nhà chú thích y tế.

Như đã đề cập trước đó, dữ liệu này bao gồm năm loại lỗi, bao gồm:

Chẩn đoán: Chẩn đoán được cung cấp là không chính xác
Quản lý: Các bước quản lý tiếp theo được cung cấp là không chính xác
Dược lý: Thuốc khuyến cáo không chính xác
Điều trị: Phương pháp điều trị được đề xuất là không chính xác
Sinh vật gây bệnh: Sinh vật gây bệnh hoặc mầm bệnh được chỉ định là không chính xác

(Lưu ý: Các loại lỗi này được chọn sau khi phân tích các loại câu hỏi phổ biến nhất trong kỳ thi hội đồng y tế.)

Hình 1 ở trên thể hiện một ví dụ từ dữ liệu MEDEC. Mỗi văn bản lâm sàng đều đúng hoặc có lỗi do một trong hai phương pháp tạo ra: Phương pháp số 1 (MS) và Phương pháp số 2 (UW).

Phương pháp tạo dữ liệu số 1 (MS)

Trong phương pháp này, các tác giả sử dụng các câu hỏi kiểm tra của hội đồng y tế từ bộ sưu tập MedQA.

Bốn người chú thích có bối cảnh về y tế tham khảo các câu chuyện y tế và câu hỏi trắc nghiệm trong các kỳ thi này, sau khi kiểm tra các câu hỏi và câu trả lời ban đầu, đã đưa các câu trả lời sai vào văn bản cảnh và loại trừ các cặp câu hỏi và câu trả lời có lỗi hoặc thông tin mơ hồ.

Người chú thích y tế tuân theo các nguyên tắc sau:

Sử dụng câu hỏi trắc nghiệm tường thuật y tế, đưa các câu trả lời sai vào văn bản kịch bản và tạo hai phiên bản có lỗi ở giữa hoặc cuối văn bản.

Sử dụng các câu hỏi trắc nghiệm tường thuật y tế, câu trả lời đúng sẽ được đưa vào văn bản tình huống để tạo ra phiên bản chính xác, như minh họa trong Hình 2 (văn bản được tạo chứa câu trả lời đúng).

Kiểm tra thủ công xem văn bản được tạo tự động có trung thực với kịch bản gốc và câu trả lời trong đó hay không.

Cuối cùng, các nhà nghiên cứu đã xây dựng dữ liệu cuối cùng bằng cách chọn ngẫu nhiên một phiên bản đúng và một phiên bản không chính xác của mỗi ghi chú từ hai tình huống khác nhau (lỗi được chèn vào giữa hoặc cuối văn bản).

Phương pháp tạo dữ liệu số 2 (UW)

Ở đây, các tác giả đã sử dụng cơ sở dữ liệu ghi chú lâm sàng thực tế từ ba hệ thống bệnh viện Đại học Washington (UW) (Trung tâm Y tế Harborview, Trung tâm Y tế UW và Liên minh Chăm sóc Ung thư Seattle) từ năm 2009 đến năm 2021.

Các nhà nghiên cứu đã chọn ngẫu nhiên 488 trong số 17.453 hồ sơ hỗ trợ chẩn đoán, trong đó tóm tắt tình trạng của bệnh nhân và cung cấp cơ sở cho việc điều trị.

Đội ngũ gồm bốn sinh viên y khoa đã đưa các lỗi trong đó 244 hồ sơ theo cách thủ công.

Trong giai đoạn đầu, mỗi bản ghi được chú thích bằng một số thực thể ứng viên, được QuickUMLS 4 xác định là khái niệm Hệ thống ngôn ngữ y tế thống nhất (UMLS).

Người chú thích có thể chọn một thực thể y tế ngắn gọn từ các thực thể ứng cử viên này hoặc tạo một phân đoạn văn bản mới (khoảng). Đoạn clip sau đó được đánh dấu là một trong năm loại lỗi.

Tiếp theo, người chú thích thay thế đoạn bằng một khái niệm tương tự nhưng khác và phiên bản lỗi do chính người chú thích thiết kế hoặc được tạo ra bởi phương pháp dựa trên SNOMED và LLM. Phương pháp này gợi ý các khái niệm thay thế cho người chú thích nhưng không dựa vào văn bản đầu vào. Trình chú thích y tế xác định thủ công các khái niệm hoặc lỗi cuối cùng được đưa vào văn bản.

Trong quá trình này, mỗi phân đoạn có lỗi phải mâu thuẫn với ít nhất hai phân đoạn khác trong ghi chú lâm sàng và người chú thích phải đưa ra lời giải thích hợp lý cho từng lỗi được đưa ra.

Tác giả đã sử dụng công cụ Philter5 để tự động xác định lại các ghi chú lâm sàng sau khi đưa vào các lỗi.

Sau đó, mỗi ghi chú được xem xét độc lập bởi 2 người chú thích để đảm bảo tính chính xác của việc xác định lại. Bất kỳ sự bất đồng nào đều được người chú thích thứ ba xét xử.

Bảng 1 dưới đây cho thấy sự phân chia tập huấn luyện, tập xác nhận và tập kiểm tra. Trong đó, bộ huấn luyện MS chứa 2.189 văn bản lâm sàng, bộ xác nhận MS chứa 574 văn bản lâm sàng và bộ xác nhận UW chứa 160 văn bản lâm sàng.

Bộ xét nghiệm MEDEC bao gồm 597 văn bản lâm sàng từ bộ sưu tập MS và 328 văn bản lâm sàng từ dữ liệu UW. Trong tập kiểm tra, 51,3% ghi chú có lỗi, trong khi 48,7% ghi chú đúng.

Hình 3 bên dưới thể hiện sự phân bổ các loại lỗi trong tập dữ liệu(chẩn đoán, quản lý, điều trị, dùng thuốc và tác nhân gây bệnh).

Phương pháp phát hiện và sửa lỗi y tế

Để đánh giá hiệu suất của mô hình đối với nhiệm vụ phát hiện và sửa lỗi y tế, các tác giả đã chia quy trình thành ba nhiệm vụ:

Nhiệm vụ A: Cờ lỗi dự đoán (0: nếu văn bản không có lỗi; 1: nếu văn bản có lỗi)

Nhiệm vụ B: Rút câu có lỗi cho văn bản đã được đánh dấu lỗi (-1: nếu văn bản không có lỗi; ID câu: nếu văn bản có lỗi)

Nhiệm vụ C: Tạo câu sửa cho văn bản đánh dấu có lỗi (NA: nếu văn bản không có lỗi; tạo câu/nội dung đã sửa: nếu văn bản có lỗi)

Để so sánh, họ đã xây dựng một giải pháp dựa trên LLM, sử dụng hai từ gợi ý khác nhau để tạo ra đầu ra mong muốn nhằm đánh giá hiệu suất của mô hình trong ba nhiệm vụ sau:

Mẹo số 1:

Sau đây là một câu chuyện y tế về một bệnh nhân. Bạn là một bác sĩ lành nghề đang xem xét các văn bản lâm sàng này. Văn bản đúng hoặc có lỗi. Mỗi dòng trong văn bản là một câu. Mỗi dòng bắt đầu bằng ID câu, theo sau là ký hiệu ống dẫn và sau đó là câu cần kiểm tra. Kiểm tra từng câu trong văn bản. Nếu văn bản đúng, kết quả trả về sau: ĐÚNG. Nếu có lỗi y tế trong văn bản liên quan đến điều trị, quản lý, nguyên nhân hoặc chẩn đoán, hãy trả lại ID câu có lỗi, theo sau là dấu cách và sau đó là câu đã sửa. Việc tìm và sửa lỗi đòi hỏi kiến thức y khoa và kỹ năng suy luận.

Lời nhắc số 2: Tương tự như lời nhắc đầu tiên, nhưng chứa ví dụ đầu vào và đầu ra được chọn ngẫu nhiên từ tập huấn luyện:

Đây là một ví dụ.
0 Một phụ nữ 35 tuổi đến gặp bác sĩ vì đau tay và cứng khớp. 1 Cô ấy nói rằng cơn đau bắt đầu cách đây 6 tuần, vài ngày sau khi cô ấy khỏi bị nhiễm trùng đường hô hấp trên. (…) 9 Chụp X-quang hai bên của cả hai tay cho thấy tình trạng loãng xương nhẹ quanh khớp quanh khớp đốt ngón tay thứ năm của bàn tay trái. 10 Cho methotrexat.
Trong ví dụ này, lỗi xảy ra ở câu số 10: "Cho methotrexate." Sửa thành: "Cho prednisone." Kết quả là: 10 1 Prednisone được đưa ra. Hết ví dụ.

Thí nghiệm và kết quả

mô hình ngôn ngữ

Các nhà nghiên cứu đã tiến hành thí nghiệm trên một số mô hình ngôn ngữ gần đây:

Phi-3-7B : Mô hình ngôn ngữ nhỏ (SLM) với 7 tỷ tham số.

Claude 3.5 Sonnet (22-10-2024) : Mẫu mới nhất của sê-ri Claude 3.5 (≈175 tỷ thông số), thể hiện hiệu suất SOTA trong nhiều nhiệm vụ mã hóa, tầm nhìn và lý luận.

Gemini 2.0 Flash : Mẫu Gemini mới nhất/tiên tiến nhất. Các mô hình khác của Google (chẳng hạn như Med-PaLM được thiết kế cho mục đích y tế, 540 tỷ thông số) vẫn chưa được công bố.

ChatGPT (≈175 tỷ tham số) và GPT-4 (≈1,76 nghìn tỷ tham số) là những mô hình "rất thông minh".

GPT-4o (≈200 tỷ thông số), cung cấp “trí thông minh ở cấp độ GPT-4 nhưng nhanh hơn” và GPT-4o-mini (gpt-4o-2024-05-13) , một mô hình nhỏ tập trung vào nhiệm vụ cụ thể (≈ 8 tỷ tham số).

Mới nhất o1-mini (o1-mini-2024-09-12) (≈100 tỷ tham số) và o1-preview (o1-preview-2024-09-12) (≈300 tỷ tham số), có "khả năng AI mới" , có thể xử lý nhiệm vụ lý luận phức tạp .

Điều đáng chú ý là đại lượng tham số của hầu hết các mô hình là ước tính và chủ yếu được sử dụng để giúp hiểu hiệu suất của mô hình. Một số kiểu máy (chẳng hạn như Phi-3 và Claude) yêu cầu một chút quá trình xử lý hậu kỳ tự động để khắc phục các vấn đề về định dạng.

kết quả

Bảng 2 dưới đây cho thấy kết quả chú thích thủ công của các bác sĩ y khoa và kết quả của nhiều LLM mới nhất sử dụng hai từ gợi ý trên.

Về khả năng phát hiện cờ lỗi, Claude 3.5 Sonnet vượt trội hơn phương pháp khác với độ chính xác 70,16% và đạt độ chính xác 65,62% trong phát hiện câu lỗi.

o1-mini đạt tỷ lệ chính xác cao thứ hai là 69,08% trong phát hiện cờ lỗi.

Về khả năng sửa lỗi, o1-preview đạt hiệu suất tốt nhất với tổng điểm là 0,698, vượt xa con số 0,639 của GPT-4 ở vị trí thứ hai [P#2].

Bảng 3 bên dưới cho thấy độ chính xác khi phát hiện lỗi và điểm sửa lỗi trên mỗi dữ liệu(MEDEC-MS và MEDEC-UW). Trong đó, tập hợp con MS có nhiều thách thức hơn đối với Claude 3.5 Sonnet và Doctor #2, trong khi tập hợp con UW có nhiều thách thức hơn đối với o1-preview và Doctor #1.

Kết quả cho thấy LLM tiên tiến thực hiện tốt việc phát hiện và sửa lỗi so với đánh giá của bác sĩ, nhưng vẫn thua kém bác sĩ con người trong nhiệm vụ này.

Điều này có thể là do nhiệm vụ phát hiện và sửa lỗi như vậy tương đối hiếm trong mạng và sách giáo khoa y tế, nghĩa là khả năng LLM gặp phải dữ liệu liên quan trong quá trình đào tạo trước là thấp.

Điều này có thể được nhìn thấy từ kết quả của o1-preview, trong đó mô hình đạt được độ chính xác lần lượt là 73% và 69% trong việc phát hiện lỗi và câu trên tập hợp con MS được xây dựng trên các văn bản lâm sàng công cộng, trong khi trên bộ sưu tập UW sở hữu tư nhân Chỉ có 58% và 48% độ chính xác đã đạt được.

Một yếu tố khác là nhiệm vụ yêu cầu phân tích và sửa văn bản hiện có không phải do LLM tạo ra, điều này có thể khó hơn việc soạn thảo một câu trả lời mới từ đầu.

Bảng 4 dưới đây cho thấy điểm thu hồi phát hiện lỗi và điểm sửa lỗi cho từng loại lỗi (chẩn đoán, quản lý, điều trị, điều trị bằng thuốc và vi sinh vật gây bệnh).

Có thể thấy, tỷ lệ thu hồi của o1-preview cao hơn đáng kể so với Claude 3.5 Sonnet và hai bác sĩ ở khâu phát hiện lỗi và phát hiện câu. Tuy nhiên, sau khi tổng hợp các kết quả về độ chính xác (xem Bảng 2), người ta thấy rằng các bác sĩ thực hiện có độ chính xác cao hơn.

Những kết quả này chỉ ra rằng mô hình có vấn đề đáng kể về độ chính xác và AI đang dự đoán quá mức về sự hiện diện của sai sót (tức là ảo giác) trong nhiều trường hợp so với bác sĩ.

Ngoài ra, kết quả cũng cho thấy có sự khác biệt về thứ hạng giữa hiệu suất phân loại và hiệu suất tạo sửa lỗi.

Ví dụ: trong số tất cả các mô hình, Claude 3.5 Sonnet đứng đầu về độ chính xác của cờ lỗi và phát hiện câu, nhưng xếp cuối cùng về điểm tạo bản sửa lỗi (xem Bảng 2).

Hơn nữa, o1-preview đứng thứ tư trong số tất cả các LLM về độ chính xác phát hiện lỗi, nhưng đứng đầu và vượt xa về khả năng tạo bản sửa lỗi. Mô hình tương tự cũng được quan sát thấy giữa hai bác sĩ y khoa.

Hiện tượng trên có thể được giải thích do sự khó khăn của nhiệm vụ tạo bản sửa lỗi và cũng có thể phản ánh những hạn chế của chỉ báo đánh giá việc tạo văn bản SOTA hiện tại trong việc nắm bắt các từ đồng nghĩa và điểm tương đồng trong văn bản y tế.

Bảng 5 hiển thị văn bản tham khảo, chú thích của bác sĩ và các ví dụ chỉnh sửa được tạo tự động bởi các mô hình Claude 3.5 Sonnet và GPT.

Ví dụ: phần điều chỉnh tham khảo cho ví dụ thứ hai chỉ ra rằng bệnh nhân được chẩn đoán mắc bệnh agammaglobulinemia của Bruton, trong khi câu trả lời đúng do LLM cung cấp lại đề cập đến bệnh agammaglobulinemia liên kết X (từ đồng nghĩa với chứng rối loạn di truyền hiếm gặp này).

Ngoài ra, một số LLM (như Claude) cung cấp câu trả lời/sửa lỗi dài hơn với nhiều giải thích hơn. Một hiện tượng tương tự xảy ra trong các chú thích của bác sĩ, trong đó bác sĩ số 1 cung cấp các bản sửa đổi dài hơn bác sĩ số 2 và hai bác sĩ không đồng ý về một số ví dụ/trường hợp, phản ánh thực tế là chúng được viết bởi các bác sĩ/chuyên gia khác nhau. ghi chú.

Bước tiếp theo trong nghiên cứu liên quan về phát hiện và sửa lỗi y tế đòi hỏi phải đưa ra nhiều ví dụ hơn bằng từ ngữ nhanh chóng và tối ưu hóa các ví dụ.

Giới thiệu tác giả

Wen-wai Yim

Wen-wai Yim là nhà khoa học ứng dụng cao cấp tại Microsoft.

Cô nhận bằng Cử nhân Kỹ thuật Sinh học từ UCSD và bằng Tiến sĩ về Tin học Y sinh và Y tế từ Đại học Washington, nơi mối quan tâm nghiên cứu của cô bao gồm rút sự kiện lâm sàng từ các ghi chú lâm sàng và X quang cũng như dự đoán giai đoạn ung thư.

Ngoài ra, ông còn là nhà nghiên cứu sau tiến sĩ tại Đại học Stanford, phát triển phương pháp rút thông tin từ các ghi chú lâm sàng dạng tự do và kết hợp thông tin này với dữ liệu trong hồ sơ y tế điện tử.

Mối quan tâm nghiên cứu của cô bao gồm hiểu ngôn ngữ tự nhiên trong lâm sàng từ các ghi chú lâm sàng và các cuộc hội thoại y tế cũng như tạo ngôn ngữ ghi chú lâm sàng từ dữ liệu có cấu trúc và phi cấu trúc.

Yujuan Fu

Yujuan Fu là nghiên cứu sinh tiến sĩ về tin học y tế tại Đại học Washington.

Trước đây, cô đã nhận bằng cử nhân về kỹ thuật điện và máy tính của Đại học Giao thông Thượng Hải và bằng cử nhân khoa học dữ liệu của Đại học Michigan.

Lĩnh vực nghiên cứu là xử lý ngôn ngữ tự nhiên cho lĩnh vực y tế: tinh chỉnh các mô hình ngôn ngữ lớn thông qua các hướng dẫn, bao gồm trích xuất thông tin, tóm tắt, lý luận thông thường, dịch máy và đánh giá tính nhất quán thực tế.

Triệu Nghị Tôn

Zhaoyi Sun là nghiên cứu sinh tiến sĩ về tin học y sinh và y tế tại Đại học Washington. Cô liên kết với đội ngũ UW-BioNLP và được giám sát bởi Tiến sĩ Meliha Yetisgen.

Trước đó, anh nhận bằng cử nhân hóa học tại Đại học Nam Kinh và bằng thạc sĩ về tin học y tế tại Đại học Cornell.

Nghiên cứu của anh tập trung vào việc áp dụng LLM để phát hiện lỗi trong Hỏi đáp y tế và ghi chú lâm sàng. Anh quan tâm đến nghiên cứu học độ sâu đa phương thức kết hợp hình ảnh và văn bản y sinh. Mục tiêu là nâng cao hiệu quả ứng dụng và hiệu quả của công nghệ xử lý ngôn ngữ tự nhiên trong lâm sàng. trường.

Phí Hạ

Fei Xia là giáo sư tại Khoa Ngôn ngữ học tại Đại học Washington và là người đồng tổ chức Hội nghị chuyên đề của UW/Microsoft. Trước đây, ông từng là nhà nghiên cứu tại Trung tâm nghiên cứu TJ Watson của IBM.

Cô nhận bằng cử nhân của Khoa Khoa học Máy tính tại Đại học Bắc Kinh và bằng thạc sĩ và tiến sĩ của Khoa Khoa học Máy tính và Thông tin tại Đại học Pennsylvania.

Khi ở Penn, cô là trưởng đội ngũ dự án treebank Trung Quốc và là thành viên đội ngũ dự án XTAG. Người hướng dẫn luận án tiến sĩ là Tiến sĩ Martha Palmer và Tiến sĩ Aravind Joshi.

Tham khảo:

https://x.com/koltregaskes/status/1874535044334969104

https://arxiv.org/pdf/2412.19260

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: Xinzhiyuan, 36 Krypton được xuất bản với sự cho phép.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan