최초로, HLE(인류의 마지막 시험) 전문가 검증 부문에서 60점을 돌파한 시스템이 등장했습니다!
최근, 예일대학교의 탕샹루와 왕위제, 상하이교통대학교의 쉬왕한, UCLA의 완관청, 옥스퍼드대학교의 인전페이, 그리고 아이젠 AI의 진디와 왕한루이가 공동으로 개발한 다중 에이전트 시스템인 아이젠-1이 역사적인 돌파구를 마련했습니다.
HLE Bio/Chem Gold 테스트 세트에서 Pass@1 정확도는 48.3%에 도달했고, Pass@5 정확도는 61.74%로 치솟아 처음으로 60점을 돌파했습니다. 이는 Google Gemini 2.5 Pro(26.9%), OpenAI GPT-5(22.82%), Grok 4(30.2%)를 훨씬 능가하는 결과입니다.
가장 흥미로운 점은 이 성과가 폐쇄형 대규모 모델에 의존하지 않고, 전적으로 오픈 소스 DeepSeek V3.1에 기반을 두고 있다는 것입니다.
연구팀은 이 오픈소스 기반에서 모니터 기반 RAG(암묵적 지식 향상), HSR(계층적 솔루션 복구), QAIR(품질 인식 반복 추론)이라는 세 가지 혁신적 메커니즘을 중첩하여 질적 도약을 달성했습니다.
다음 세부 정보가 확장되었습니다.
기술 혁신: 60개 항목의 획기적인 발전을 뒷받침하는 3대 기둥
AI가 인간 지식의 궁극적인 경계에 도전하기 시작하면서, 전례 없는 경쟁이 펼쳐지고 있습니다.
대형 모델이 MMLU 및 GPQA와 같은 기존 벤치마크에서 90점을 달성함에 따라, 이러한 테스트는 점차 변별력을 잃게 됩니다. 과학적 추론의 최전선에서 AI의 진정한 발전을 추적하기 위해 AI 안전 센터(Center for AI Safety)와 스케일 AI(Scale AI)는 공동으로 "인류의 마지막 시험(HLE)"을 시작했습니다.
수학, 자연과학, 공학, 인문학, 사회과학 등 100개 이상의 분야에서 총 3,000개의 박사급 난제를 다루고 있으며, AI 지식 추론에 대한 궁극적인 테스트로 여겨진다.
HLE Bio/Chem Gold는 HLE의 골드 스탠다드 하위 세트로 , 도메인 전문가가 직접 검토하고 수정한 149개 질문이 포함되어 있습니다.
원래 HLE 데이터 세트와 비교했을 때, 이 하위 세트는 모호하거나 잘못된 답변이 있을 수 있는 질문을 제외하여 레이블의 정확성과 신뢰성을 보장하고, AI 과학적 추론 능력을 평가하는 가장 신뢰할 수 있는 벤치마크가 되었습니다.
Eigen-1 시스템이 처음으로 60점을 돌파한 것은 HLE Bio/Chem Gold 하위 세트에서였으며, 이는 세 가지 주요 혁신적 메커니즘과 분리할 수 없습니다.
1. 모니터 기반 RAG: "도구 세금"으로 암묵적 검색 향상에 작별 인사
기존의 검색 증강 생성(RAG) 시스템은 자주 일시 정지되는 비디오 플레이어와 같습니다. 외부 지식이 필요할 때마다 추론 과정을 중단하고, 쿼리를 구성하고, 결과를 처리한 다음, 컨텍스트를 다시 통합해야 합니다.
연구팀은 이러한 간접비용을 비유적으로 "도구세"라고 부릅니다. 도구를 사용할 때마다 사고 과정이 방해를 받고 맥락이 손실되기 때문입니다.
기존 RAG 시스템의 "도구세" 문제는 아래 그림에 나타난 집단 유전학 사례에서 생생하게 드러납니다. 왼쪽은 모델이 잘못된 공식을 과도하게 사용하는 것을 보여주는 반면, 오른쪽은 명시적인 RAG를 통해 올바른 공식을 얻었더라도 추론 과정의 중단으로 인해 모델이 지식을 원래 문제에 다시 통합하지 못하는 것을 보여줍니다.
Eigen-1의 모니터 기반 RAG는 이 패러다임을 완전히 바꿔놓았습니다.
암묵적 모니터링 : 모니터는 추론 흐름의 불확실성을 지속적으로 모니터링하며, 마치 세심한 조수처럼 도움이 필요할 수 있는 모든 순간을 조용히 감시합니다. 모니터는 추론 궤적을 스캔하여 불확실성이 발생하면 RAG를 트리거합니다.
정확한 질의 : 질의자가 불확실성을 감지하면 불필요한 검색 공간 확장을 방지하기 위해 최소한의 키워드 집합을 정확하게 클레임.
원활한 주입 : 주입기는 대화에서 자연스럽게 배경 정보를 보충하듯이 검색된 지식을 추론 흐름에 원활하게 통합하며, 단순히 참조만 엄격하게 삽입하는 것이 아닙니다.
실험 데이터에 따르면, 명시적 RAG와 비교했을 때 Monitor 기반 RAG는 토큰 소비를 53.5% 줄이고 워크플로 반복 횟수를 43.7% 줄이는 동시에 더 높은 정확도를 유지합니다.
아래 그림에서 보듯이, 하플로타입 계산 사례에서 Monitor는 재조합 제약의 불확실성을 감지하고, Querier는 타겟팅된 쿼리를 생성하며, Injector는 두 가지 주요 사실을 주입하여 모델이 유효하지 않은 사례를 제외하고 올바른 30개 하플로타입 답변을 얻을 수 있도록 합니다.
2. 계층적 솔루션 개선(HSR): "민주적 투표"에서 "계층적 개선"으로
Eigen-1은 암묵적 지식 강화 외에도 다중 에이전트 협업 모델에 혁명을 일으켰습니다.
기존의 다중 에이전트 시스템은 모든 후보 솔루션이 동등하게 처리되는 "민주적 투표" 메커니즘을 사용하는데, 이로 인해 최적의 솔루션이 쉽게 "희석"됩니다.
Eigen-1에 도입된 계층적 솔루션 정제(HSR)는 이러한 가정을 깨뜨립니다. HSR은 "앵커-수리" 구조를 채택합니다. 즉, 한 후보가 앵커 역할을 하고 나머지 후보들은 순차적으로 수정되는 참조 역할을 하며 계층적 협업을 형성합니다.
HSR 프레임 에서 각 후보 솔루션은 번갈아 가며 "앵커" 역할을 하고, 다른 솔루션들은 "참조" 역할을 하여 목표에 맞는 수정 사항을 제공합니다. 이러한 설계를 통해 강력한 솔루션은 취약한 솔루션의 가치 있는 통찰력을 단순히 평균화하는 것이 아니라, 그 통찰력을 흡수할 수 있습니다.
구체적으로는 논리적 완성 (누락된 추론 단계 채우기), 수치적 수정 (계산 오류 수정), 방법 대체 (약한 방법을 더 나은 전략으로 대체), 표현 최적화 (본질을 바꾸지 않고 명확성 개선)의 네 가지 복구 차원이 포함됩니다.
이러한 설계를 통해 단순히 다른 솔루션의 평균을 내는 것이 아니라, 다른 솔루션에서 귀중한 통찰력을 흡수하여 고품질 솔루션을 구축할 수 있습니다.
아래 그림은 이미지 인식 작업을 통해 HSR의 작동 원리를 생생하게 보여줍니다.
곤충 인식 및 꽃 개수 계산이라는 복잡한 과제 대면 앵커 솔루션은 처음에 ResNet(옵션 C)을 선택했지만, 배포 시간 계산 오류로 인해 영향을 받았습니다. 시스템은 다른 솔루션을 참조로 사용하여 네 가지 목표 수정을 수행했습니다.
3. 품질 인식 반복 추론(QAIR): 품질 중심 반복 최적화
품질 인식 반복 추론(QAIR)은 솔루션의 품질에 따라 반복 깊이를 적응적으로 조정할 수 있습니다. 즉, 고품질 솔루션은 더 일찍 수렴되고, 품질이 낮은 솔루션은 더 많은 탐색을 촉발하여 효율성과 정확성 간의 균형을 이룰 수 있습니다.
이 메커니즘은 논리성, 정답의 정확성, 그리고 설명의 완전성이라는 세 가지 측면에서 각 답을 평가합니다. 이러한 기준을 충족하지 못하는 답만 다음 수정 단계로 넘어가므로, 품질이 낮은 후보에 컴퓨팅 리소스를 낭비하는 것을 방지합니다.
총체적 압도: HLE 그 이상
Eigen-1의 장점은 HLE에만 국한되지 않습니다.
1. HLE Bio/Chem Gold (149문항)
Pass@1: 48.30% (SciMaster보다 13.4%포인트 높음)
Pass@5: 61.74% (첫 60% 돌파)
2. SuperGPQA 생물학 (하드 에디션)
합격@1: 69.57%
합격@5: 78.26%
3. TRQA 문헌 이해
합격@1: 54.65%
합격@5: 79.07%
깊은 통찰력: 성공의 법칙
오류 패턴 분석
그림 7의 원형 차트는 중요한 통찰력을 보여줍니다. 오류의 92.78%는 추론 문제와 관련이 있고, 88.66%는 지식 적용 문제와 관련이 있으며, 두 문제 사이에 대량 중복이 있습니다.
이는 과학적 추론의 핵심 과제가 단순한 지식 검색이나 논리적 추론에 있는 것이 아니라, 지식과 추론을 어떻게 원활하게 통합하느냐에 있다는 것을 보여줍니다.
이와 대조적으로 실행 준수 오류(13.40%)와 이해 오류(9.28%)는 상대적으로 작은 비중을 차지했는데, 이는 해당 모델이 지시 이해 및 실행 측면에서 비교적 성숙했음을 나타냅니다.
구성 요소 기여도의 정확한 정량화
연구팀은 점진적인 구성 과 절제 실험을 통해 각 구성 요소의 기여도를 정확하게 정량화했습니다.
외부 지식 없이 기준 시스템은 483,600개의 토큰을 소모하면서 25.3%의 정확도만 달성했습니다. 명시적인 RAG를 추가하자 정확도가 41.4%로 향상되었지만, 워크플로 단계가 43.4개에서 94.8개로 급증하는 대가를 치렀습니다. 이는 "도구 세금"의 명백한 예입니다.
Monitor 구성 요소가 도입된 후 정확도는 34.5%로 약간 떨어졌지만 토큰 소비량은 218.4K로 급격히 감소했고 워크플로 단계 수는 51.3으로 줄었습니다.
Querier와 Injector를 추가하면서 정확도는 40.3%로 돌아왔습니다. HSR 도입으로 정확도는 43.7%로 향상되었습니다. 마지막으로 QAIR은 효율적인 리소스 활용(218.9K 토큰, 53.4단계)을 유지하면서 전체 시스템의 정확도를 48.3%로 끌어올렸습니다.
절제 실험을 통해 각 구성 요소의 필요성을 다른 관점에서 검증했습니다. 모니터를 제거하자 토큰 소비량이 461.3K로 급증하고 워크플로 단계 수가 95.3개로 증가하여 암묵적 향상의 상당한 가치를 입증했습니다.
HSR 또는 QAIR을 제거하면 정확도가 각각 44.8%와 43.7%로 떨어지며, 이는 레이어 개선과 품질 인식 반복의 중요한 역할을 보여줍니다.
다양성과 합의 사이의 섬세한 균형
저자는 산점도와 회귀 분석을 통해 반직관적이지만 매우 시사적인 결과를 밝혔습니다.
정보 검색 과제(339개 샘플)에서 솔루션 간 일관성은 정확도와 약한 양의 상관관계를 보였습니다(기울기 0.369). 이는 다양한 검색 경로와 관점이 상호 보완적인 정보를 가져올 수 있으며 다양성이 유익하다는 것을 의미합니다.
추론 과제(샘플 392개)에서는 상황이 정반대였습니다. 일관성과 정확성은 강한 양의 상관관계(기울기 0.851)를 보였습니다. 이는 여러 추론 경로가 동일한 결론에 도달하는 경우 해당 결론이 옳을 가능성이 높다는 것을 나타냅니다.
따라서 검색 작업은 솔루션의 다양성과 병렬 경로를 장려해야 하며, 순수 추론 작업은 조기 합의와 수렴을 지향해야 합니다.
이러한 발견은 미래 지능형 에이전트 시스템의 작업 적응형 설계에 중요한 지침을 제공합니다.
도구세의 정확한 정량화
마지막으로 저자는 정확도 향상과 토큰 감소 간의 관계를 비교하여 명시적 RAG에 비해 암시적 향상의 엄청난 이점을 직관적으로 보여줍니다.
기존의 베이스라인 + RAG 솔루션은 정확도를 향상시킬 수 있지만, 그림에서 오른쪽 상단으로 확장되는 것처럼 엄청난 계산 오버헤드가 발생합니다(정확도는 향상되지만 토큰 수가 늘어납니다).
하지만 Eigen-1은 좌측 상단 사분면에 위치하여 토큰 소비를 53.5% 줄이는 동시에 정확도를 크게 향상시켰습니다. 워크플로 반복 횟수도 94.8회에서 53.4회로 43.7% 감소했습니다. 이러한 "두 가지" 성과는 아키텍처 혁신의 핵심입니다.
중요성: 과학적 AI를 위한 새로운 패러다임
Eigen-1이 처음으로 60점을 돌파한 것은 벤치마크 테스트를 훨씬 뛰어넘는 의미를 지닙니다. Eigen-1은 또한 AI 지원 과학 연구의 새로운 패러다임을 예고하는 것이기도 합니다 .
AI가 인간 지식의 최전선에 있는 복잡한 문제를 진정으로 이해하고 추론할 수 있게 되면 과학자들에게 강력한 조수가 되어 기초 연구부터 응용 혁신까지 전체 과정을 가속화할 것입니다.
연구팀은 아키텍처 설계를 지속적으로 최적화하고, 다른 과학 분야로의 확장을 모색하며, 이러한 기술을 더욱 광범위한 과학 워크플로우에 통합하는 방법을 연구할 것이라고 밝혔습니다. 더 많은 연구자들이 이 오픈소스 생태계에 참여함에 따라, 과학적 AI의 발전 속도가 더욱 빨라질 것으로 예상됩니다.
팀에서 말했듯이 "HLE는 우리 모델에 대해 수행해야 할 중요한 테스트일 수 있지만 AI에 대한 마지막 벤치마크는 아닙니다." 오픈 소스 커뮤니티가 함께 발전해 나가면서 인간과 AI가 미지의 영역을 협력적으로 탐구하는 새로운 시대가 가속화되고 있습니다.
논문 링크: https://arxiv.org/pdf/2509.21193v1
프로젝트 주소: https://github.com/tangxiangru/Eigen-1
본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, 저자는 Eigen-1 팀이며, 36Kr에서 게시 허가를 받았습니다.





