추가 교육이나 미세 조정은 필요하지 않습니다. 보조 시스템 덕분에 GPT-5.2의 정확도가 기록적인 75%에 도달했습니다.

이 기사는 기계로 번역되었습니다
원문 표시

뭐라고요? 인공지능의 한계는 더 이상 기본 모델이 아니라 주변의 "추론 조정" 기능에 의해 결정된다고요?

LLM 모델을 변경하지 않고도 단일 에이전트 시스템만으로 AI의 지능을 획기적으로 향상시킬 수 있습니다.

인공지능 추론 및 자기계발 시스템에 집중하는 스타트업인 포에틱(Poetiq)에 대한 최근 평가를 검토한 결과, 일부에서는 이러한 결론에 도달했습니다.

부분 스크린샷

최근 Poetiq은 ARC-AGI-2 테스트 세트를 사용하여 자사 시스템(메타 시스템)에서 GPT-5.2 X-High를 실행했다고 발표했습니다 . 이 테스트 세트는 일반적으로 복잡한 추상 추론 작업에서 최첨단(SOTA) 모델의 성능을 측정하는 데 사용됩니다.

결과에 따르면, 동일한 Poetiq 테스트 플랫폼에서 GPT-5.2 X-High는 전체 PUBLIC-EVAL 데이터셋에서 75%의 점수를 달성했는데, 이는 이전 최고 성능(SOTA) 점수보다 약 15% 높은 수치이며, 문제당 비용은 8달러 미만입니다.

여기서 PUBLIC-EVAL 테스트는 ARC 테스트의 일부입니다. PUBLIC-EVAL 테스트는 일반적으로 기본적인 추론 작업과 표준 자연어 처리(NLP) 및 수학적 추론 테스트를 포함하며, 이는 광범위한 모델 평가에 적합하고 보다 개방적이고 표준화된 데이터 세트를 사용합니다. ARC 테스트는 모델의 추상적 추론, 상식적 추론 및 혁신 능력을 검증하는 보다 복잡하고 어려운 추론 문제를 포함합니다. 이는 고수준 모델의 추론 한계를 시험하는 테스트입니다.

다음 그림은 PUBLIC-EVAL 데이터셋에서 다양한 최첨단(SOTA) 모델의 성능 분포를 보여줍니다.

Poetiq은 또한 GPT-5.2에 대해 재학습이나 모델별 최적화를 수행하지 않았다고 명확히 강조했습니다.

GPT-5.2는 이처럼 짧은 시간 안에 Poetiq이 PUBLIC-EVAL 데이터셋에서 이전에 테스트했던 다른 모델들과 비교하여 정확도와 가격 면에서 상당한 개선을 이루었습니다.

Poetiq은 공개 평가 테스트에서 보여준 우수한 성능이 공식 ARC Prize 준공개 테스트에서도 이어진다면 "GPT-5.2 X-High + Poetiq" 구성이 이전의 어떤 시스템 구성보다 더 강력하고 뛰어날 것이라고 예상합니다.

ARC 프라이즈 회장인 그렉 캄라트는 "포에틱이 GPT-5.2 X-High의 결과를 공개한 것을 보니 매우 기쁩니다. 만약 이 정도의 성능을 유지할 수 있다면, 그들의 시스템은 모델 교체를 매우 잘 처리할 수 있을 것으로 보입니다. 하지만 오픈AI API의 인프라 문제가 해결될 때까지는 이 결과가 완전히 검증된 것은 아닙니다."라고 말했습니다.

여기서 모델 전환이란 대규모 조정이나 시스템 또는 모델의 재학습 없이 다양한 작업 요구 사항을 충족하기 위해 시스템이 서로 다른 모델 간에 전환하는 것을 의미합니다.

OpenAI의 사장인 그렉 브록만도 해당 트윗을 리트윗하며 "GPT-5.2가 ARC-AGI-2에서 인간 벤치마크 성능을 능가했다"고 밝혔습니다.

댓글란에는 "각 작업에 평균적으로 얼마나 걸리나요?"와 같은 새로운 테스트 결과에 대한 질문이 더 많이 올라왔습니다.

Poetiq은 "현재 이러한 통계를 구체적으로 수집하고 있지는 않습니다. 가장 쉬운 문제는 8분에서 10분 정도면 풀 수 있지만, 가장 어려운 문제는 시간 제한 내에 풀기 위해 12시간 안에 완료해야 합니다. 따라서 앞으로 개선의 여지가 분명히 있습니다."라고 답변했습니다.

다른 사람들은 "개선 사항의 대부분은 모델별 튜닝보다는 테스트 프레임 와 조정 메커니즘에서 비롯된 것으로 보인다. 훈련 변경 없이 ARC-AGI-2의 성능 향상은 약 15%에 불과하며, 이는 검색, 라우팅 및 종료 로직만으로도 개선의 여지가 여전히 많다는 것을 의미한다"고 지적했습니다.

질문은 이것입니다. 이 설정에서 X-High가 High보다 작업당 비용이 더 저렴한 이유는 무엇일까요? 정답을 더 빨리 찾아 수렴 속도가 더 빠르기 때문일까요, 아니면 테스트 프레임 유효하지 않은 추론 프로세스를 더 적극적으로 제거하기 때문일까요?

이 질문에 대해 Poetiq은 "X-High는 High보다 정답에 더 빨리 수렴한다"는 관점 재확인했습니다.

6명으로 구성된 팀이 메타 시스템을 구축했습니다.

Poetiq은 6명의 연구원과 엔지니어로 구성된 팀이며, 그중 몇몇 핵심 멤버는 Google DeepMind 출신입니다.

이안 피셔(공동 창립자 겸 공동 CEO): 이전에는 구글 딥마인드에서 선임 연구원으로 근무했습니다.

슈밋 발루자(공동 창립자 겸 공동 CEO): 구글/딥마인드 출신의 베테랑 전문가입니다.

Poetiq의 성공 비결은 메타 시스템 에 있습니다.

메타 시스템은 특정 대형 모델에 의존하지 않으며, 모델 자체를 학습시키거나 미세 조정하는 대신 Gemini 3, GPT-5.1, Grok 등과 같은 최첨단 모델과 함께 사용할 수 있습니다. 즉, 새로운 모델이 출시될 때마다 빠르게 적응하고 성능을 향상시킬 수 있습니다.

Poetiq 메타 시스템은 기존의 일회성 답변 생성 방식과는 다른 반복적인 추론 프로세스를 구축하며, 두 가지 주요 메커니즘을 가지고 있습니다.

반복적인 문제 해결 루프: 시스템은 모델에 문제를 한 번만 제시하는 것이 아니라, 대규모 언어 모델(LLM)을 사용하여 잠재적인 해결책을 생성하고, 피드백을 수신 및 분석한 후, LLM을 다시 호출하여 해결책을 개선합니다. 이러한 다단계 자체 개선 프로세스를 통해 시스템은 최종 해답을 점진적으로 구축하고 지속적으로 개선할 수 있습니다.

자체 감사: 시스템은 자체 진행 상황을 자율적으로 감사 하고 충분한 정보를 확보했는지, 현재 솔루션이 만족스러운지 판단하여 전체 프로세스를 종료할지 여부를 결정합니다. 이러한 자체 모니터링 메커니즘은 불필요한 계산 낭비를 방지하고 전체 비용을 효과적으로 절감하는 데 매우 중요합니다.

Poetiq은 또한 새로운 모델 출시 전에 모든 메타 시스템 적응 작업이 완료되었으며, 해당 시스템이 ARC-AGI 작업 세트를 직접 건드리지 않았음에도 불구하고 여러 다른 모델에서 버전 간 및 모델 계열 간 성능 향상을 달성하여 메타 시스템이 추론 전략에 대한 우수한 일반화 능력을 가지고 있음을 입증했다고 강조했습니다.

Poetiq과 같은 소규모 팀이 매우 짧은 시간 안에 일련의 최첨단(SOTA) 결과를 달성할 수 있는 것은 바로 이러한 유연하고 강력하며 재귀적인 아키텍처 덕분입니다.

이 메타 시스템에 대해 어떤 사람들은 "정말 훌륭하다. 모델 내부가 아닌 모델 위에 지능을 구축한다는 것은 새로운 모델을 몇 시간 만에 적용할 수 있다는 것을 의미하며, 이는 정말 탁월하다. 오픈 소스 모델에 적응하고 새로운 폐쇄형 모델로 성공적으로 마이그레이션했다는 것은 모델 특유의 특성이 아니라 추론 과정 자체의 근본적인 법칙을 포착했다는 것을 보여준다"라고 생각합니다.

참고 링크: https://poetiq.ai/posts/arcagi_verified/

이 글은 두웨이와 천천이 운영하는 위챗 공식 계정 "머신하트" 에서 발췌하여 36Kr의 허가를 받아 게재한 글입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트