@logic_int 님이 PutnamBench를 완전히 포화시켰습니다! 수학적인 측면에서 엄청난 파급 효과가 있겠지만, 저는 Aleph 같은 에이전트가 가진 독특한 능력 덕분에 코드 생성 분야에서 앞으로 어떤 가능성을 열어줄지 훨씬 더 기대됩니다. 이 부분에 대해서는 곧 더 자세히 이야기하겠습니다...
이 기사는 기계로 번역되었습니다
원문 표시

Logical Intelligence
@logic_int
01-12
Our Aleph agent, powered by @OpenAI 's GPT‑5.2, scored 668/672, 99.4% w/hyper-efficiency on @gtsoukal et al.'s PutnamBench (the hardest formal math benchmark) a critical step in natural language automated code generation — English as programming — with hallucination-free results

섹터:
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유


