Bạn đã bao giờ hỏi trợ lý AI về sức khỏe của mình chưa?
Tác giả bài viết: Li Yuan
Nguồn bài viết: MarsBit
Nếu bạn là người độ sâu sử dụng AI như tôi, có lẽ bạn cũng đã từng thử rồi.
Theo dữ liệu do OpenAI cung cấp, sức khỏe đã trở thành một trong những trường hợp sử dụng phổ biến nhất của ChatGPT, với hơn 230 triệu người trên toàn thế giới đặt câu hỏi liên quan đến sức khỏe và lối sống lành mạnh mỗi tuần.
Do đó, khi bước sang năm 2026, lĩnh vực y tế đang cho thấy dấu hiệu trở thành một chiến trường cạnh tranh khốc liệt trong lĩnh vực trí tuệ nhân tạo.
Vào ngày 7 tháng 1, OpenAI đã phát hành ChatGPT Health, cho phép người dùng kết nối hồ sơ y tế điện tử và nhiều ứng dụng chăm sóc sức khỏe khác nhau để nhận được phản hồi y tế chính xác hơn; và vào ngày 12 tháng 1, Anthropic ngay lập tức ra mắt Claude for Healthcare, nhấn mạnh khả năng của mô hình mới trong các tình huống y tế.
Điều thú vị là, lần, các công ty Trung Quốc không hề tụt hậu; trên thực tế, họ dường như đang ở vị thế dẫn đầu.
Vào ngày 13 tháng 1, Baichuan Intelligence đã công bố phát hành mô hình Baichuan M3, vượt qua GPT-5.2 High của OpenAI trên HealthBench, một bộ tiêu chuẩn đánh giá chăm sóc sức khỏe do OpenAI phát hành, đạt hiệu suất tiên tiến nhất (SOTA).
Sau khi đối mặt với nhiều nghi ngờ kể từ khi tuyên bố dốc toàn lực vào lĩnh vực chăm sóc sức khỏe, BaiChuan Intelligent dường như cuối cùng đã chứng minh được năng lực của mình. GeekPark lần đã có một cuộc phỏng vấn đặc biệt với Wang Xiaochuan để thảo luận về ứng xử khả năng của lần hình M3 và tương lai cuối cùng của trí tuệ nhân tạo trong lĩnh vực chăm sóc sức khỏe.
01 Lần đầu tiên, vượt qua OpenAI trên một bộ dữ liệu thử nghiệm liên quan đến sức khỏe.
Một trong những thành tựu ấn tượng nhất của mô hình M3 lần ra mắt là nó vượt qua GPT-5.2 High của OpenAI trên HealthBench, một bộ tiêu chuẩn đánh giá chăm sóc sức khỏe do OpenAI phát hành, đạt được trạng thái tiên tiến lần (SOTA).

SOTA trên Healthbench, Healthbench Hard và Hallucination Evaluation
Healthbench là một bộ dữ liệu đánh giá chăm sóc sức khỏe được OpenAI phát hành vào tháng 5 năm 2025. Bộ dữ liệu này được xây dựng bởi 262 bác sĩ từ 60 quốc gia và bao gồm 5.000 đoạn hội thoại y tế đa lượt rất thực tế. Đây là một trong những bộ dữ liệu đánh giá lâm sàng đáng tin cậy và thực tế nhất trên thế giới.
Kể từ khi ra mắt, mô hình của OpenAI luôn đứng đầu bảng xếp hạng.
Lần, mô hình dữ liệu lớn y tế mã nguồn mở thế hệ mới của Baichuan Intelligence, Baichuan-M3, đã đạt điểm tổng hợp 65,1, đứng đầu thế giới. Thậm chí, nó còn chiến thắng bài kiểm tra HealthBench Hard, bài kiểm tra chuyên biệt về khả năng ra quyết định phức tạp, lập kỷ lục mới.
Baichuan cũng công bố kết quả thử nghiệm tỷ lệ gây ảo giác. Mẫu M3 đạt tỷ lệ gây ảo giác 3,5%, thấp nhất thế giới.
Cần lưu ý rằng tỷ lệ ảo giác này là tỷ lệ ảo giác y tế trong điều kiện mô hình thuần túy mà không dựa vào các công cụ hỗ trợ bên ngoài.
BaiChuan Intelligence cho biết chìa khóa để đạt được hai điểm này nằm ở việc ứng dụng các thuật toán học tăng cường phù hợp với lĩnh vực y tế.
Baichuan là đơn vị đầu tiên sử dụng công nghệ Học tăng cường nhận biết sự thật (Fact Aware RL) trên mô hình M3, đạt được hiệu quả ngăn chặn mô hình đưa ra những câu nói sáo rỗng hoặc vô nghĩa.
Điều này thực sự rất quan trọng trong lĩnh vực y tế.
Việc đặt câu hỏi y tế trong một mô hình chưa được tối ưu hóa rất có thể dẫn đến hai loại vấn đề. Thứ nhất, mô hình trực tiếp tạo ra các triệu chứng của bạn và phỏng đoán một căn bệnh; thứ hai, ngữ nghĩa không rõ ràng, cuối cùng gợi ý rằng bạn vẫn cần phải đi khám bác sĩ, điều này không hữu ích cho cả bác sĩ lẫn bệnh nhân.
Điều này chính xác là vì nhiều mô hình sử dụng tỷ lệ ảo tưởng thuần túy làm mục tiêu tối ưu hóa, và trong trường hợp này, mô hình có thể làm giảm tỷ lệ ảo tưởng tổng thể bằng cách tích lũy các sự kiện đơn giản và chính xác. Baichuan giới thiệu cơ chế phân cụm ngữ nghĩa và trọng số quan trọng — phân cụm loại bỏ sự can thiệp của các tuyên bố dư thừa, và trọng số đảm bảo rằng các kết luận y khoa cốt lõi nhận được tỷ trọng cao hơn.
Đồng thời, việc đơn giản chỉ đưa ra hình phạt ảo giác tỷ trọng cao có thể dễ dàng buộc mô hình phải áp dụng chiến lược thận trọng "nói ít hơn và mắc ít lỗi hơn". Do đó, thuật toán Fact Aware RL cũng tích hợp cơ chế điều chỉnh tỷ trọng động để cân bằng thích ứng hai mục tiêu này dựa trên mức độ năng lực hiện tại của mô hình. Trong giai đoạn xây dựng năng lực, trọng tâm là học hỏi và thể hiện kiến thức y khoa (Trọng số Nhiệm vụ cao); sau khi năng lực trưởng thành, các ràng buộc thực tế được thắt chặt dần (tăng Trọng số Ảo giác).
Khi có sẵn chức năng tìm kiếm trực tuyến, Baichuan cũng bổ sung thêm mô-đun xác minh trực tuyến dựa trên tìm kiếm nhiều vòng và giới thiệu hệ thống bộ nhớ đệm hiệu quả để sắp xếp lượng lớn kiến thức y khoa.
02. Khả năng chẩn đoán của nó vượt trội so với các bác sĩ con người, đã bước vào giai đoạn có thể sử dụng được.
Tuy nhiên, việc vượt qua OpenAI trên Healthbench không phải là điểm nổi bật duy nhất lần.
Lần thú vị hơn nữa là Baichuan đã sáng tạo xây dựng bộ dữ liệu chuẩn SCAN-benche của riêng mình. So với các bộ dữ liệu chuẩn thống trị bảng xếp hạng của OpenAI, bộ dữ liệu chuẩn tự xây dựng của Baichuan có thể minh họa rõ hơn hướng mà Baichuan Intelligence muốn tối ưu hóa trong lĩnh vực y tế.
Điểm mấu chốt của bộ dữ liệu đánh giá do Baichuan xây dựng lần nằm ở việc tối ưu hóa "khả năng tư vấn toàn diện". Điều này xuất phát từ những hiểu biết thực nghiệm của chính Baichuan: cứ mỗi 2% tăng độ chính xác tư vấn, độ chính xác của kết quả điều trị sẽ tăng 1%.
Nói cách khác, so với HealthBench của OpenAI, vốn chủ yếu tập trung vào "liệu AI có thể trả lời câu hỏi hay không", SCAN-benche của BaiChuan hướng đến việc đánh giá liệu AI có thể thu thập thông tin hiệu quả trong quá trình hỏi đáp và cung cấp kết quả chẩn đoán chính xác cũng như ý kiến y tế phù hợp hay không.
Thông thường, khi chúng ta hỏi trợ lý AI một câu hỏi, chỉ đơn giản nói "bạn là một bác sĩ giàu kinh nghiệm" sẽ không mang lại kết quả tốt từ mô hình. Điều này là do các bác sĩ thực thụ có quy trình tư vấn được tiêu chuẩn hóa cao—mà Baichuan tóm tắt bằng nguyên tắc SCAN bốn góc phần tư: Phân tầng an toàn, Sự rõ ràng rất quan trọng, Liên kết & Hỏi đáp, và Quy trình chuẩn mực.
Dựa trên nguyên tắc SCAN, Đại học Baichuan đã vận dụng phương pháp OSCE, vốn đã được sử dụng lâu đời trong giáo dục y khoa, và hợp tác với hơn 150 bác sĩ tuyến đầu để xây dựng hệ thống đánh giá SCAN-bench. Hệ thống này chia quá trình chẩn đoán và điều trị thành ba giai đoạn chính: thu thập bệnh sử, khám phụ trợ và chẩn đoán chính xác. Hệ thống tiến hành đánh giá một cách năng động và nhiều vòng để mô phỏng đầy đủ toàn bộ quá trình của bác sĩ từ tư vấn đến chẩn đoán, và tối ưu hóa mô hình bằng cách đạt được kết quả tốt hơn trong mỗi giai đoạn này.
Baichuan lần công bố kết quả đánh giá mẫu M3 trên hệ thống SCAN-Benz.

Kết quả khá thú vị. Lần không chỉ so sánh mô hình với các bác sĩ thực tế, mà còn so sánh với chính các bác sĩ đó. Ở cả bốn góc phần tư, các bác sĩ thực tế đều có kết quả thấp hơn so với mức độ mà mô hình đạt được.
GeekPark đã hỏi cụ thể đội ngũ Baichuan về vấn đề này, và câu trả lời của họ là: Việc đánh giá lần bao gồm việc các bác sĩ chuyên khoa thực tế so sánh mô hình với các trường hợp cụ thể. Thành công của mô hình trước hết là do tính kiên nhẫn cao hơn, nhưng quan trọng hơn, là do kiến thức liên ngành vượt trội của nó.
Ví dụ, trong một trường hợp, một đứa trẻ 10 tuổi bị sốt tái phát nhiều lần. Sốt là một hiện tượng y khoa rất phức tạp. Nếu chúng ta chỉ hỏi về tình trạng của phổi, chẳng hạn như ho, chúng ta có thể dễ dàng bỏ qua các vấn đề nghiêm trọng ở khớp và hệ tiết niệu và chẩn đoán nhầm đó là một bệnh nhiễm trùng thông thường.
Các bác sĩ thường chỉ giỏi điều trị các bệnh thuộc chuyên ngành của họ. Đó là lý do tại sao các triệu chứng phức tạp thường cần đến sự tư vấn của chuyên gia, hoặc tại sao các chuyên gia thường phải tham khảo sách vở và thông tin khi điều trị các bệnh khó và phức tạp.
Những người chỉ đóng vai bác sĩ mà không được đào tạo chuyên sâu thường gặp khó khăn trong việc trả lời tốt những câu hỏi kiểu này.
03. Các bước tiếp theo: Bắt đầu phát triển dần các sản phẩm hướng đến người tiêu dùng (phân khúc C) và thúc đẩy các hoạt động y tế chuyên sâu hơn.
Đối với BaiChuan Intelligence, việc vượt qua nút các bác sĩ con người có ý nghĩa rất lớn: điều đó có nghĩa là trí tuệ nhân tạo đã bắt đầu vượt qua ngưỡng khả năng sử dụng và có thể được triển khai trong các trường hợp thực tế.
Bắt đầu từ ngày 13 tháng 1, người dùng có thể trải nghiệm câu trả lời do mô hình M3 cung cấp trên trang web và ứng dụng của BaiXiaoYing.
Thiết kế trang web hiện tại khá thú vị. Mặc dù cả hai đều sử dụng mô hình M3 để đưa ra phản hồi, nhưng có các phiên bản riêng biệt dành cho bác sĩ và người dùng. Trong phiên bản dành cho bác sĩ, câu trả lời ngắn gọn hơn, trích dẫn nhiều tham khảo hơn và có vẻ "không tự nhiên" hơn. Trong phiên bản dành cho bệnh nhân, mô hình hầu như không bao giờ đưa ra câu trả lời ngay lập tức, mà thay vào đó đặt thêm các câu hỏi tiếp theo để đưa ra chẩn đoán cụ thể hơn.

BaiChuan Intelligence cho biết quá trình tư duy của mô hình rất thú vị. "Chúng tôi thường thấy mô hình tự nhủ trong Chuỗi suy nghĩ rằng, 'Bệnh nhân này không trả lời câu hỏi của tôi, nhưng tôi vẫn phải hỏi.' Chúng tôi thậm chí còn thấy những trường hợp cực đoan, mô hình đã hỏi bệnh nhân 20 lần, vượt quá số vòng tối đa được thiết lập, nhưng vẫn kiên trì hỏi lại. Điều này là bởi vì trong quá trình huấn luyện, mô hình sẽ không nhận được phần thưởng khi sử dụng ngôn ngữ khéo léo hoặc thuyết phục; nó phải thực sự thu thập đủ thông tin quan trọng và đưa ra chẩn đoán chính xác mới nhận được phần thưởng. Đây là sự khác biệt đáng kể giữa cách chúng tôi huấn luyện mô hình và cách những người khác làm."
Gần đây, nhiều công ty AI đã bắt đầu tham gia vào lĩnh vực y tế. Đây cũng là điều mà BaiChuan Intelligence cho rằng là điểm khác biệt lớn nhất của mình – tập trung vào các vấn đề y tế nghiêm trọng hơn.
"Điều này có nghĩa là khi Baichuan lựa chọn các kịch bản, họ không chỉ xem xét kịch bản nào dễ thực hiện nhất. Ngược lại, Baichuan luôn kiên trì thúc đẩy năng lực công nghệ của mình và giải quyết những vấn đề khó khăn hơn," Wang Xiaochuan cho biết.
Một ví dụ điển hình là trong tương lai, Baichuan sẽ ưu tiên các giải pháp điều trị ung thư, trong khi việc chữa lành tâm lý sẽ được ưu tiên thấp hơn.
Theo quan điểm phổ biến, trí tuệ nhân tạo (AI) thường được cho rằng là đơn giản và dễ áp dụng hơn trong việc hỗ trợ điều trị tâm lý. Tuy nhiên, lập luận của Baichuan lại khác. Họ cho rằng lĩnh vực ung thư học có nhiều bằng chứng khoa học chặt chẽ hơn. Trong lĩnh vực này, AI có nhiều khả năng đạt được những kết quả y tế đáng kể, từ đó đạt hoặc vượt qua trình độ của các bác sĩ con người. Ngược lại, lĩnh vực tâm lý học lại thiếu cơ sở khoa học vững chắc này.
Ví dụ, một số công ty chọn tạo ra các bản sao AI cho bác sĩ, nhưng Wang Xiaochuan cho rằng đây không phải là hướng đi mà Baichuan (công ty đứng sau Baichuan) muốn theo đuổi. Một bản sao của bác sĩ không thể sao chép hoàn toàn, chứ đừng nói đến vượt qua, trình độ chuyên môn của bác sĩ đó. AI như vậy cuối cùng sẽ chỉ trở thành một vỏ bọc và công cụ thu hút khách hàng, và không thể thực sự thúc đẩy sự phát triển của ngành chăm sóc sức khỏe.
Sự kiên định vào tính nghiêm túc này đã ảnh hưởng sâu sắc đến nhiều quyết định kinh doanh của Baichuan.
Điều này liên quan trực tiếp đến suy nghĩ của Wang Xiaochuan về những vấn đề cơ bản của giai đoạn tiếp theo của trí tuệ nhân tạo y tế. Ông cho rằng rằng nhiệm vụ quan trọng nhất ở giai đoạn này là từng bước cung cấp nhiều dịch vụ y tế hơn dựa trên việc nâng cao khả năng của trí tuệ nhân tạo.
Trong nhiều năm qua, Trung Quốc đã nỗ lực thúc đẩy hệ thống y tế phân cấp và hệ thống bác sĩ đa khoa. Mục đích ban đầu là để người dân bình thường có thể khám chữa bệnh ở cấp cơ sở trước tiên, nhằm giải quyết các vấn đề về khó khăn trong việc đặt lịch hẹn, xếp hàng dài và tình trạng quá tải tại các bệnh viện lớn.
Lý do hệ thống này khó thực hiện chủ yếu là do nguồn lực y tế không đủ. Các cơ sở chăm sóc sức khỏe ban đầu thiếu bác sĩ có tay nghề cao. Người dân sẵn sàng xếp hàng tại các bệnh viện hàng đầu ngay cả khi chỉ bị cảm lạnh thông thường vì họ thiếu tin tưởng vào chất lượng chăm sóc y tế do các cơ sở chăm sóc sức khỏe ban đầu cung cấp.
Đây chính là lúc trí tuệ nhân tạo y tế phát huy tác dụng. Các mô hình quy mô lớn cho phép phân phối kiến thức y tế tiên tiến trên diện rộng. Nó lấp đầy khoảng trống về nguồn cung ở cấp cơ sở, cho phép mọi cộng đồng và mọi gia đình có được khả năng chẩn đoán và điều trị tương tự như các chuyên gia tại các bệnh viện hàng đầu.
Về lâu dài, điều này có thể có tác động rộng hơn, tiềm ẩn nguy cơ chuyển giao quyền ra quyết định trong chăm sóc sức khỏe từ bác sĩ sang bệnh nhân. Trong các cơ sở chăm sóc sức khỏe truyền thống, bệnh nhân được hưởng lợi nhưng thường thiếu quyền ra quyết định, vốn tập trung trong tay bác sĩ. Sự bất đối xứng quyền lực này thường dẫn đến chi phí giao tiếp tăng cao và sự khó chịu trong quá trình điều trị.
Baichuan hy vọng sẽ sử dụng trí tuệ nhân tạo (AI) để giúp bệnh nhân dễ dàng tiếp cận các nguồn lực y tế chất lượng cao. "Nhiều người cho rằng y học quá phức tạp và bệnh nhân sẽ không bao giờ hiểu được. Nhưng chúng tôi nghĩ đến hệ thống bồi thẩm đoàn trong hệ thống tư pháp Hoa Kỳ. Luật pháp cũng là một vấn đề rất chuyên môn, và người bình thường trong bồi thẩm đoàn không hiểu được. Vì vậy, chúng tôi yêu cầu các thẩm phán, luật sư và công tố viên dẫn dắt cuộc tranh luận, làm rõ các lập luận, đến mức người bình thường có thể phán xét là có tội hay vô tội, để người bình thường có thể đưa ra phán quyết bình thường dựa trên logic", Wang Xiaochuan nói.
Đây là một trong những lý do tại sao Baichuan Intelligence không muốn tập trung vào các trường hợp đơn giản, mà thay vào đó hy vọng sẽ liên tục tiến tới các phương pháp điều trị y tế phức tạp và nghiêm trọng hơn.
Khi được hỏi liệu việc giải quyết các vấn đề cực kỳ phức tạp có mang lại lợi ích thương mại cao nhất hay không, Wang Xiaochuan đã đưa ra một câu trả lời sâu sắc.
Ông cho rằng rằng việc giải quyết các vấn đề nhỏ như cảm lạnh và sốt khó có thể tạo dựng đủ lòng tin giữa người dùng. Ngành chăm sóc sức khỏe phụ thuộc rất nhiều vào lòng tin. Chỉ khi trí tuệ nhân tạo (AI) có thể giải quyết các vấn đề phức tạp như bệnh nặng thì nền tảng lòng tin thực sự mới có thể được thiết lập.
Nhìn lên góc độ kinh doanh, bệnh nhân đối diện các vấn đề sức khỏe nghiêm trọng sẵn sàng chi trả nhiều hơn cho các dịch vụ AI chất lượng cao. Niềm tin này không chỉ là điều kiện tiên quyết để thu được lợi nhuận thương mại mà còn là lý do cốt lõi khiến AI có thể được ứng dụng rộng rãi trong lĩnh vực chăm sóc sức khỏe.
Xét về mặt cơ bản hơn, đối với Baichuan Intelligence và chính Wang Xiaochuan, chăm sóc sức khỏe vẫn là một con đường tiến gần đến trí tuệ nhân tạo tổng quát (AGI).
Wang Xiaochuan cho rằng rằng trí tuệ nhân tạo (AI) đã tìm ra các giải pháp thực tiễn trong các lĩnh vực như nhân văn, khoa học, kỹ thuật và nghệ thuật, trong khi y học là một lĩnh vực rất đặc thù. Sự khám phá của nhân loại trong lĩnh vực y học còn lâu mới kết thúc, và AI vẫn đang trong giai đoạn khám phá ở lĩnh vực này.
Lộ trình của Baichuan rất rõ ràng. Đầu tiên, công ty hướng đến việc nâng cao hiệu quả chẩn đoán thông qua trí tuệ nhân tạo (AI), giải quyết tình trạng thiếu hụt nguồn lực y tế hiện nay. Trên nền tảng này, Baichuan cam kết xây dựng lòng tin độ sâu với bệnh nhân. Khi bệnh nhân sẵn sàng sử dụng các công cụ AI để tư vấn y tế lâu dài, AI có thể tích lũy dữ liệu y tế thực tế và chất lượng cao thông qua sự tương tác bền vững này.
Mục tiêu cuối cùng của dữ liệu này là xây dựng các mô hình toán học về sự sống. Đây là con đường mà các bác sĩ con người vẫn chưa khám phá hết, và rất có thể trí tuệ nhân tạo (AI) sẽ là người đầu tiên đạt được điều đó. Nếu một mô hình về bản chất của sự sống có thể được hoàn thiện, đây sẽ là một bước quan trọng thúc đẩy trí tuệ nhân tạo tổng quát tiến lên một cấp độ cao hơn.




