Lần đầu tiên, một hệ thống đã vượt qua mốc 60 điểm trong tập xác minh chuyên gia của HLE (“Kỳ thi cuối cùng của nhân loại”)!
Gần đây, hệ thống đa tác nhân Eigen-1, được phát triển chung bởi Tang Xiangru và Wang Yujie từ Đại học Yale, Xu Wanghan từ Đại học Giao thông Thượng Hải, Wan Guancheng từ UCLA, Yin Zhenfei từ Đội ngũ Oxford và Jin Di và Wang Hanrui từ Eigen AI, đã đạt được bước đột phá lịch sử.
Trên bộ thử nghiệm HLE Bio/Chem Gold, độ chính xác Pass@1 đạt 48,3% và độ chính xác Pass@5 tăng vọt lên 61,74%, lần đầu tiên vượt qua mốc 60 điểm. Kết quả này vượt xa Google Gemini 2.5 Pro (26,9%), OpenAI GPT-5 (22,82%) và Grok 4 (30,2%).
Điều thú vị nhất là thành tựu này không dựa vào các mô hình quy mô lớn nguồn đóng mà hoàn toàn dựa trên DeepSeek V3.1 mã nguồn mở .
Trên nền tảng mã nguồn mở này, đội ngũ nghiên cứu đã đạt được bước nhảy vọt về chất lượng bằng cách áp dụng ba cơ chế cải tiến: RAG dựa trên giám sát (nâng cao kiến thức ngầm định), HSR (sửa chữa giải pháp phân cấp) và QAIR (lập luận lặp lại có nhận thức về chất lượng).
Các chi tiết sau đây được mở rộng -
Đổi mới công nghệ: Ba trụ cột hỗ trợ đột phá 60 điểm
Khi AI bắt đầu thách thức những ranh giới cuối cùng của kiến thức con người, một cuộc thi chưa từng có đang diễn ra.
Khi các mô hình lớn đạt điểm 90 trên các chuẩn mực truyền thống như MMLU và GPQA, các bài kiểm tra này dần mất đi khả năng phân biệt. Để theo dõi sự tiến bộ thực sự của AI, vốn là tiên phong trong lý luận khoa học, Trung tâm An toàn và Quy mô AI (Center for AI Safety and Scale AI) đã cùng nhau khởi động "Kỳ thi Cuối cùng của Nhân loại" (HLE).
Nó bao gồm tổng cộng 3.000 bài toán khó ở cấp độ tiến sĩ trong hơn 100 lĩnh vực bao gồm toán học, khoa học tự nhiên, kỹ thuật, nhân văn và khoa học xã hội, và được coi là bài kiểm tra cuối cùng về khả năng lập luận kiến thức của AI.
HLE Bio/Chem Gold là tập hợp chuẩn vàng của HLE , bao gồm 149 câu hỏi đã được các chuyên gia trong lĩnh vực này xem xét và sửa lỗi thủ công.
So với dữ liệu HLE gốc, tập hợp con này loại trừ các câu hỏi có thể có câu trả lời mơ hồ hoặc không chính xác, đảm bảo tính chính xác và độ tin cậy của nhãn, khiến nó trở thành chuẩn mực đáng tin cậy nhất đánh giá khả năng suy luận khoa học của AI.
Trên tập hợp con HLE Bio/Chem Gold, hệ thống Eigen-1 đã vượt qua mốc 60 điểm lần đầu tiên và điều này không thể tách rời khỏi ba cơ chế cải tiến chính của hệ thống.
1. RAG dựa trên màn hình: Nói lời tạm biệt với việc tăng cường tìm kiếm ngầm bằng "thuế công cụ"
Các hệ thống tạo tăng cường truy xuất (RAG) truyền thống giống như một trình phát video thường xuyên bị tạm dừng— lần khi cần kiến thức bên ngoài, nó phải ngắt quá trình lập luận, xây dựng truy vấn, xử lý kết quả rồi tích hợp lại ngữ cảnh.
Đội ngũ nghiên cứu gọi chi phí này theo nghĩa bóng là "Thuế công cụ" - lần gọi công cụ đều làm gián đoạn quá trình suy nghĩ và gây mất bối cảnh.
Vấn đề "thuế công cụ" của các hệ thống RAG truyền thống được minh họa rõ nét trong ví dụ di truyền quần thể được trình bày trong hình bên dưới. Phía bên trái cho thấy mô hình sử dụng công thức sai một cách quá tự tin, trong khi phía bên phải cho thấy ngay cả khi công thức đúng được thu thập thông qua RAG rõ ràng, sự gián đoạn trong quá trình suy luận vẫn ngăn cản mô hình tái tích hợp kiến thức vào bài toán ban đầu.
RAG dựa trên màn hình của Eigen-1 đã thay đổi hoàn toàn mô hình này:
Giám sát ngầm : Monitor liên tục giám sát sự không chắc chắn trong luồng suy luận, hoạt động như một trợ lý cẩn thận, âm thầm theo dõi mọi khoảnh khắc cần hỗ trợ. Monitor quét quỹ đạo suy luận để kích hoạt RAG khi sự không chắc chắn xuất hiện.
Truy vấn chính xác : Khi Querier phát hiện sự không chắc chắn, nó rút chính xác tập hợp từ khóa tối thiểu để tránh mở rộng không gian tìm kiếm không cần thiết.
Tiêm liền mạch : Injector tích hợp liền mạch kiến thức đã thu thập được vào luồng lý luận, giống như việc bổ sung thông tin bối cảnh một cách tự nhiên vào cuộc trò chuyện, thay vì chèn các tài liệu tham khảo một cách cứng nhắc.
Dữ liệu thử nghiệm cho thấy so với RAG rõ ràng, RAG dựa trên màn hình giảm 53,5% lượng mã thông báo tiêu thụ và 43,7% số lần lặp lại quy trình làm việc, đồng thời vẫn duy trì độ chính xác cao hơn.
Như thể hiện trong hình bên dưới, trong trường hợp đếm kiểu gen, Monitor phát hiện sự không chắc chắn của ràng buộc tái tổ hợp, Querier tạo ra các truy vấn có mục tiêu và Injector đưa vào hai sự kiện quan trọng, cho phép mô hình loại trừ các trường hợp không hợp lệ và thu được 30 câu trả lời đúng về kiểu gen.
2. Tinh chỉnh giải pháp phân cấp (HSR): Từ “Bỏ phiếu dân chủ” đến “Tinh chỉnh phân cấp”
Ngoài việc nâng cao kiến thức ngầm, Eigen-1 còn cách mạng hóa mô hình cộng tác giữa nhiều tác nhân.
Các hệ thống đa tác nhân truyền thống sử dụng cơ chế "bỏ phiếu dân chủ", trong đó tất cả các giải pháp ứng viên đều được xử lý bình đẳng, điều này dễ dàng "làm loãng" giải pháp tối ưu.
Tinh chỉnh Giải pháp Phân cấp (HSR) được giới thiệu trong Eigen-1 phá vỡ giả định này. HSR áp dụng cấu trúc "mỏ neo-sửa chữa": một ứng viên đóng vai trò là mỏ neo, và các ứng viên còn lại đóng vai trò là tham khảo để được sửa đổi theo trình tự, tạo thành một sự hợp tác phân cấp.
Trong khuôn khổ HSR, mỗi giải pháp ứng viên lần lượt đóng vai trò là "mỏ neo", trong khi các giải pháp khác đóng vai trò là "tham khảo" để cung cấp các điều chỉnh có mục tiêu. Thiết kế này cho phép các giải pháp mạnh tiếp thu nhận xét có giá trị từ các giải pháp yếu hơn, thay vì chỉ đơn thuần là tính trung bình.
Cụ thể, nó bao gồm bốn chiều sửa chữa: hoàn thiện logic (bổ sung các bước lập luận còn thiếu), hiệu chỉnh số (sửa lỗi tính toán), thay thế phương pháp (thay thế phương pháp yếu hơn bằng các chiến lược tốt hơn) và tối ưu hóa biểu thức (cải thiện độ rõ ràng mà không thay đổi bản chất).
Thiết kế này cho phép các giải pháp chất lượng cao hấp thụ nhận xét có giá trị từ các giải pháp khác thay vì chỉ lấy trung bình chúng.
Hình ảnh bên dưới minh họa sinh động nguyên lý hoạt động của HSR thông qua nhiệm vụ nhận dạng hình ảnh.
Đối diện nhiệm vụ phức tạp là nhận dạng côn trùng và đếm hoa, giải pháp neo ban đầu đã chọn ResNet (phương án C), nhưng điều này bị ảnh hưởng bởi việc tính toán sai thời gian triển khai. Bằng cách sử dụng các giải pháp khác làm tham khảo, hệ thống đã thực hiện bốn lần điều chỉnh có mục tiêu.
3. Lý luận lặp lại có nhận thức về chất lượng (QAIR): Tối ưu hóa lặp lại theo định hướng chất lượng
Lý luận lặp lại có nhận thức về chất lượng (QAIR) có thể điều chỉnh độ sâu lặp lại một cách thích ứng dựa trên chất lượng của giải pháp: các giải pháp chất lượng cao có thể hội tụ sớm hơn, trong khi các giải pháp chất lượng thấp kích hoạt nhiều khám phá hơn, do đó đạt được sự cân bằng giữa hiệu quả và độ chính xác.
Cơ chế này đánh giá từng giải pháp theo ba khía cạnh: logic, tính đúng đắn của câu trả lời và tính đầy đủ của lời giải. Chỉ những giải pháp không đáp ứng được các tiêu chí này mới được chuyển sang vòng chỉnh sửa tiếp theo, tránh lãng phí tài nguyên tính toán vào các ứng viên chất lượng thấp.
Sự nghiền nát toàn diện: không chỉ là HLE
Ưu điểm của Eigen-1 không chỉ giới hạn ở HLE:
1. HLE Bio/Chem Gold (149 câu hỏi)
Đạt @1: 48,30% (cao hơn SciMaster 13,4 điểm phần trăm)
Đạt @5: 61,74% (lần đầu tiên vượt 60%)
2. Sinh học SuperGPQA (Phiên bản cứng)
Đạt @1: 69,57%
Đạt @5: 78,26%
3. Tìm hiểu tài liệu TRQA
Đạt @1: 54,65%
Đạt @5: 79,07%
Thấu hiểu sâu sắc: Quy luật đằng sau thành công
Phân tích mẫu lỗi
Biểu đồ hình tròn trong Hình 7 cho thấy một thông tin chi tiết quan trọng: 92,78% lỗi liên quan đến vấn đề lý luận và 88,66% liên quan đến vấn đề ứng dụng kiến thức, với sự chồng chéo lượng lớn giữa hai vấn đề này.
Điều này cho thấy thách thức cốt lõi của lập luận khoa học không nằm ở việc thu thập kiến thức đơn giản hay lập luận logic, mà là cách kết hợp kiến thức và lập luận một cách liền mạch.
Ngược lại, lỗi tuân thủ thực hiện (13,40%) và lỗi hiểu (9,28%) chỉ chiếm tỷ lệ tương đối nhỏ, cho thấy mô hình đã tương đối hoàn thiện về mặt hiểu và thực hiện hướng dẫn.
Định lượng chính xác các thành phần đóng góp
Đội ngũ đã định lượng chính xác sự đóng góp của từng thành phần thông qua các thí nghiệm xây dựng và cắt bỏ gia tăng.
Nếu không có bất kỳ kiến thức bên ngoài nào, hệ thống cơ sở chỉ đạt độ chính xác 25,3%, tiêu tốn 483,6 nghìn mã thông báo. Việc bổ sung RAG rõ ràng đã cải thiện độ chính xác lên 41,4%, nhưng phải trả giá bằng việc tăng đột biến các bước quy trình làm việc từ 43,4 lên 94,8, một ví dụ rõ ràng về "thuế công cụ".
Sau khi thành phần Giám sát được giới thiệu, mặc dù độ chính xác giảm nhẹ xuống còn 34,5%, mức tiêu thụ mã thông báo giảm mạnh xuống còn 218,4K và số bước quy trình làm việc giảm xuống còn 51,3.
Với việc bổ sung Querier và Injector, độ chính xác đã trở lại mức 40,3%. Việc giới thiệu HSR đã tăng độ chính xác lên 43,7%. Cuối cùng, QAIR đã nâng độ chính xác của toàn bộ hệ thống lên 48,3%, đồng thời vẫn duy trì hiệu quả sử dụng tài nguyên (218,9 nghìn token, 53,4 bước).
Các thí nghiệm cắt bỏ đã xác nhận tính cần thiết của từng thành phần từ một góc nhìn khác. Việc loại bỏ Monitor khiến mức tiêu thụ token tăng vọt lên 461,3 nghìn và số bước quy trình làm việc tăng lên 95,3, chứng minh giá trị đáng kể của việc cải tiến ngầm.
Việc loại bỏ HSR hoặc QAIR khiến độ chính xác giảm xuống lần lượt là 44,8% và 43,7%, cho thấy vai trò quan trọng của việc tinh chỉnh lớp và lặp lại có nhận thức về chất lượng.
Sự cân bằng tinh tế giữa sự đa dạng và sự đồng thuận
Các tác giả đưa ra một phát hiện trái ngược trực giác nhưng có tính gợi ý cao thông qua biểu đồ phân tán và phân tích hồi quy.
Trong nhiệm vụ truy xuất thông tin (339 mẫu), tính nhất quán giữa các giải pháp cho thấy mối tương quan tích cực yếu với độ chính xác (độ dốc 0,369), điều này có nghĩa là các đường dẫn và góc nhìn truy xuất khác nhau có thể mang lại thông tin bổ sung và tính đa dạng mang lại lợi ích.
Trong nhiệm vụ lý luận (392 mẫu), tình hình hoàn toàn ngược lại - tính nhất quán và độ chính xác cho thấy mối tương quan tích cực mạnh (độ dốc 0,851), cho thấy rằng khi nhiều con đường lý luận đi đến cùng một kết luận, thì kết luận này có khả năng là đúng.
Do đó, nhiệm vụ truy xuất nên khuyến khích sự đa dạng của giải pháp và các tuyến đường song song; nhiệm vụ suy luận thuần túy nên hướng tới sự đồng thuận và hội tụ sớm.
Phát hiện này cung cấp hướng dẫn quan trọng cho nhiệm vụ thích ứng của các hệ thống tác nhân thông minh trong tương lai.
Định lượng chính xác thuế công cụ
Cuối cùng, tác giả đã chứng minh một cách trực quan lợi thế to lớn của việc tăng cường ngầm so với RAG rõ ràng bằng cách so sánh mối quan hệ giữa việc cải thiện độ chính xác và giảm mã thông báo.
Mặc dù giải pháp đường cơ sở + RAG truyền thống có thể cải thiện độ chính xác, nhưng phải trả giá bằng chi phí tính toán khổng lồ, được thể hiện ở phía trên bên phải trong hình (độ chính xác được cải thiện nhưng số lượng mã thông báo tăng lên).
Tuy nhiên, Eigen-1 nằm ở góc phần tư phía trên bên trái, cải thiện đáng kể độ chính xác đồng thời giảm 53,5% mức tiêu thụ mã thông báo. Số lần lặp lại quy trình làm việc cũng giảm từ 94,8 xuống còn 53,4, tương đương mức giảm 43,7%. Thành tựu "cả hai" này chính là cốt lõi của sự đổi mới kiến trúc.
Ý nghĩa: Một mô hình mới cho AI khoa học
Ý nghĩa của việc Eigen-1 vượt qua mốc 60 điểm lần đầu tiên vượt xa một bài kiểm tra chuẩn mực: Eigen-1 cũng báo hiệu một mô hình mới trong nghiên cứu khoa học được hỗ trợ bởi AI .
Khi AI có thể thực sự hiểu và lý giải được những vấn đề phức tạp nằm ở vị trí hàng đầu trong kiến thức của con người, nó sẽ trở thành trợ lý đắc lực cho các nhà khoa học, đẩy nhanh toàn bộ quá trình từ nghiên cứu cơ bản đến chuyển đổi ứng dụng.
Đội ngũ nghiên cứu tuyên bố rằng họ sẽ tiếp tục tối ưu hóa thiết kế kiến trúc, khám phá mở rộng sang các lĩnh vực khoa học khác và nghiên cứu cách tích hợp các công nghệ này vào nhiều quy trình làm việc khoa học hơn. Khi ngày càng nhiều nhà nghiên cứu tham gia hệ sinh thái mã nguồn mở này, chúng ta có lý do để kỳ vọng AI khoa học sẽ thúc đẩy sự phát triển nhanh hơn nữa.
Như đội ngũ đã nói: "HLE có thể là một bài kiểm tra quan trọng mà chúng ta cần thực hiện trên các mô hình của mình, nhưng nó chưa phải là chuẩn mực cuối cùng cho AI." Khi cộng đồng mã nguồn mở cùng nhau phát triển, một kỷ nguyên mới về việc khám phá những điều chưa biết giữa con người và AI đang diễn ra nhanh chóng.
Liên kết bài báo: https://arxiv.org/pdf/2509.21193v1
Địa chỉ dự án: https://github.com/tangxiangru/Eigen-1
Bài viết này được trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: đội ngũ Eigen-1 và được 36Kr cho phép xuất bản.