[소개] 에포크 AI의 연말 결산 보고서가 나왔습니다! 놀랍게도 AI는 정체되지 않고 오히려 가속화되었습니다.
Epoch AI는 최근 꽤 많은 새로운 기능을 출시했습니다.
그들은 FrontierMath에서 여러 오픈 소스 가중치 중국어 모델을 테스트했습니다.
그 결과, 1~3단계에서 그들의 최고 점수는 세계 최고 수준의 AI 모델보다 약 7개월 정도 뒤처졌습니다.
더욱 어려운 4단계에서는 거의 모든 오픈소스 중국 대형 모델이 완전히 실패했습니다.
유일하게 점수를 획득한 프로그램은 DeepSeek-V3.2(Thinking)였습니다. 이 프로그램은 한 문제를 맞혀 약 2%의 점수(1/48)를 얻었습니다.
물론 이러한 대규모 중국 오픈소스 모델들이 실패한 것은 사실이지만, 해외 모델들 역시 제대로 된 성과를 내지 못했습니다.
GPT나 Gemini 같은 최상위 모델들은 GSM-8k나 MATH 같은 전통적인 수학 테스트에서 꾸준히 높은 점수를 기록합니다. 하지만 FrontierMath에서의 정확도는 그다지 높지 않습니다.
하지만 표에서 볼 수 있듯이, 그들의 성능은 적어도 중국의 오픈소스 모델보다는 다소 우수합니다. 그 이유는 무엇일까요? 아직 그 이유를 찾지 못했습니다.
모든 AI 모델의 성능이 저조했던 이유는 FrontierMath가 일반적인 벤치마크가 아니라 수학 분야 최고 전문가 60명 이상이 공동으로 개발하고 필즈상 수상자들이 인정한 테스트이기 때문입니다.
이 시험은 단순히 공식을 대입하고 미적분을 계산하는 퀴즈가 아니라, 실제 수학 시험입니다. 정수론, 실해석학, 대수기하학, 범주론은 물론, 푸는 데 몇 시간 또는 며칠이 걸릴 수 있는 연구 수준의 문제까지 아우르는 독창적이고 전문적인 문제 들로 구성되어 있습니다.
이는 또한 진정으로 어려운 수학 문제에 있어서 인공지능은 아직 "문제 해결 기계"가 아니라, 때때로 답을 우연히 찾아내는 초등학생과 더 비슷하다는 것을 증명합니다.
인공지능의 발전 속도가 다시 빨라지고 있습니다.
게다가 그들은 놀라운 결론을 담은 새로운 데이터 분석 보고서를 발표했습니다.
인공지능의 역량은 그 어느 때보다 빠르게 성장하고 있습니다!
그들은 최첨단 AI 모델 기능의 개발 추세를 추적하기 위해 Epoch Capabilities Index(ECI) 라는 포괄적인 지표를 사용했습니다.
결과에 따르면 2024년 4월 이후 인공지능 역량의 성장 속도가 이전보다 거의 두 배나 빨라지는 등 크게 가속화되었습니다!
다시 말해, 지난 몇 년 동안 인공지능의 역량은 꾸준히 상승 를 보인 것이 아니라, 어느 시점부터 갑자기 급격한 상승세를 보이기 시작했다는 것 입니다.
근본적인 이유는 두 가지입니다. 추론 모델이 더 강력해졌고, 강화 학습에 대한 관심이 높아지고 있기 때문입니다.
많은 사람들은 GPT-4 출시 이후 뚜렷한 도약이 없었기 때문에 인공지능 발전 속도가 둔화되었다고 생각합니다.
하지만 데이터에 따르면 AI 발전은 결코 멈추지 않았으며, 방향과 속도만 바뀌었을 뿐입니다. "더 큰 모델 + 더 많은 매개변수"에 의존하기보다는 추론 능력과 같은 특정 핵심 기능에서 가속화되고 있습니다.
올해의 10대 통찰력
그리고 방금 전, Epoch AI는 심층적인 연말 결산 보고서를 발표했습니다.
2025년 한 해 동안 그들은 36개의 데이터 분석 보고서와 37개의 뉴스레터를 발행했습니다.
인공지능에 관한 이 70개의 짧은 설문조사 중 가장 인기 있었던 것은 무엇이었습니까?
Epoch AI에서 연말 결산 보고서를 발표했습니다.
다음 10개의 설문조사는 독자들에게 가장 인기가 많았습니다.
상위 5개는 가장 인기 있는 데이터 분석 결과입니다.
1. AI 추론 비용이 급격히 감소하고 있습니다.
더 정확히 말하면, LLM 추론 비용은 작업에 따라 불균등하게 빠르게 감소합니다.
에포크 AI는 2023년 4월부터 2025년 3월까지 동일한 성능 수준에서 각 토큰의 가격이 10배 이상 하락하는 것을 관찰했습니다.
즉, 인공지능 추론(답변 도출) 하나당 비용이 10배 이상 감소했다는 뜻입니다.
인공지능이 더욱 저렴해짐에 따라 모든 사람이 더 쉽게 접근할 수 있게 될 것입니다. 더 이상 대기업만 감당할 수 있는 기술이 아니라 누구나 사용할 수 있는 도구가 될 것입니다!
2. 인공지능 "두뇌"가 당신의 컴퓨터에 들어가고 있습니다.
단 1년 만에 최첨단 AI 성능이 소비자용 하드웨어에서 구현되었습니다.
현재 소비자용 GPU에서 실행 가능한 최고의 오픈 소스 모델은 GPQA, MMLU, AA Intelligence, LMARaena를 포함한 여러 성능 지표에서 선도적인 AI 기술보다 1년 이내, 심지어 그보다 더 빠른 성능을 보여줍니다.
가장 강력한 오픈 소스 모델이 일반 소비자용 그래픽 카드에서도 실행될 수 있으므로, 머지않아 여러분의 노트북에서도 대규모 AI 모델을 실행할 수 있게 될 것입니다!
더욱이, 최첨단 AI 기능은 1년도 채 안 되어 대중에게 널리 보급될 수 있습니다.
3. OpenAI 2024에서 사용 해시레이트 의 대부분은 실제로 실험에 사용되었습니다.
언론 보도에 따르면, OpenAI는 2024년에 컴퓨팅 자원의 대부분을 추론이나 학습이 아닌, 추가 개발을 지원하기 위한 실험에 사용했다고 합니다.
네, 생각하시는 것과는 다릅니다. 교육이나 24시간 연중무휴 사용자 서비스 제공에 관한 것이 아니라, 시행착오, 탐색, 실험에 더 가깝습니다.
이는 현재 인공지능 연구 개발이 단순히 몇 가지 벤치마크를 실행하는 것보다는 여전히 대량 실험에 크게 의존하고 있음을 보여줍니다.
동시에 현재 인공지능 관련 비용은 훈련 및 배포보다는 실험 단계에서 주로 발생합니다.
4. 엔비디아 칩의 해시레이트 10개월마다 두 배로 증가합니다!
2020년 이후 엔비디아 칩의 AI 컴퓨팅 성능은 매년 두 배 이상 증가했습니다.
새롭게 출시되는 플래그십 칩은 각각 3년 안에 기존 컴퓨팅 성능의 대부분을 소모할 것입니다.
따라서 GPU는 여전히 AI 컴퓨팅의 핵심 동력이며, 그 성장 속도는 매우 빠르다고 할 수 있습니다.
인공지능 개발의 현재 속도를 유지하려면 컴퓨팅 자원을 몇 배로 늘려야 하므로 황 대표를 비롯한 칩 제조업체들은 여전히 수익을 낼 수 있습니다!
5. GPT-4와 GPT-5는 모두 상당한 도약을 나타냅니다.
일부 사람들은 OpenAI가 너무 빨리 업데이트되고 진전이 보이지 않는다고 불평하지만, 그들의 말을 믿지 마세요!
GPT-4와 GPT-5는 벤치마크 테스트에서 이전 버전을 훨씬 뛰어넘는 상당한 성능 향상을 이루었습니다.
따라서 올해의 인공지능은 단순한 점진적 혁신의 축적이 아니라, 역량 면에서 진정한 도약입니다.
그렇다면 GPT-5 출시 후 많은 사람들이 실망한 이유는 무엇일까요?
이는 기능 개발 속도가 느려졌기 때문이 아니라 지난 2년간 신형 모델이 더 자주 출시되었기 때문입니다.
가장 인기 있는 그라디언트 5가지: 그 이유를 알아봅시다
다음 다섯 개는 Gradient 칼럼에서 가장 인기 있는 기사입니다.
Gradient는 Epoch AI에 게재되는 짧은 뉴스 기사 모음입니다.
6. ChatGPT는 전력을 엄청나게 소모하나요? 전혀 그렇지 않습니다.
GPT-4o의 각 추론 과정의 평균 에너지 소비량은 얼마입니까?
정답은 전구를 5분 동안 켜두는 것보다 전력을 덜 소비한다는 것입니다.
이 결론은 알트만에 의해서도 확인되었으며, 구글이 보고한 각 제미니 프롬프트의 에너지 비용과 유사합니다.
다시 말해, 인공지능의 에너지 소비에 대한 우려는 실제보다 과장된 측면이 있다.
물론 AI의 에너지 소비량은 기하급수적으로 증가해 왔으며, 이는 미래에 심각한 문제로 대두될 수 있습니다.
7. DeepSeek은 Transformer 아키텍처를 어떻게 개선했습니까?
이 기사는 DeepSeek v3가 낮은 해시레이트 에도 불구하고 당시 가장 강력한 오픈 소스 모델의 위치를 달성할 수 있었던 세 가지 핵심 기술을 명확하게 설명합니다.
세 가지 기술은 멀티헤드 포텐셜 어텐션(MLA), 하이브리드 전문가(MoE) 아키텍처 개선, 그리고 멀티토큰 예측 메커니즘입니다.
이 기사가 publicado된 지 불과 3일 만에 DeepSeek이 R1을 출시하여 전 세계 AI 커뮤니티에 큰 파장을 일으켰습니다. 성능은 OpenAI o1과 비슷하지만 개발 비용은 훨씬 저렴합니다.
인공지능 커뮤니티 전체가 깨달은 교훈은 바로 이것입니다. 독창적인 아키텍처 혁신은 연구 개발 비용 절감과 배포 속도 향상으로 이어진다는 것입니다.
8. 추론 모델은 어디까지 활용될 수 있을까요? 그리고 어떤 한계점이 있을까요?
저자들은 추론 훈련의 성장 패턴과 상한선을 분석했습니다. 결론은 추론 능력이 중요하지만, 그 성장이 무한정 폭발적으로 증가하지는 않을 것이라는 점입니다.
OpenAI와 Anthropic은 2025년 초에 현재의 강화 학습 확장 속도는 길어야 1~2년 정도만 유지될 수 있으며, 곧 자체 해시레이트 인프라의 한계에 도달할 것이라고 밝혔습니다.
추론 능력은 모델 훈련에서 매우 중요한 확장 차원으로 자리 잡았으며, 수학 및 소프트웨어 공학 분야에서 놀라운 성과를 가져왔습니다.
하지만 이러한 방향으로의 성장에는 분명한 한계가 있으며, 이는 2024~2025년에 나타날 것으로 예상되는 모델 기능의 폭발적인 향상세가 곧 둔화될 수 있음 을 의미합니다.
이는 연구 개발 계획 수립에 있어 중요한 실질적인 조언입니다.
9. "AI 맨해튼 프로젝트"는 얼마나 큰 규모인가요?
에포크 AI는 맨해튼 프로젝트와 아폴로 프로그램을 비교하여 미국에서 국가 차원의 AI 프로젝트가 실현될 수 있는 잠재적 규모를 추정했습니다.
그들의 결론은 이 프로젝트가 GPT-4보다 10,000배 더 큰 훈련 작업을 지원하기에 충분하다는 것이었습니다.
다시 말해, 인공지능을 국가 전략 과학기술 사업으로 간주할 경우, 그 수준은 몇 배로 높아질 수 있다는 것입니다!
10. 인공지능의 가장 큰 가치는 과학 연구에서 나오는 것이 아닌가?
마지막 항목은 꽤 흥미롭습니다.
인공지능이 과학 연구를 자동으로 수행할 수 있게 되면 기술이 기하급수적으로 발전하고 인간의 생산성이 엄청나게 향상될 것이라는 이야기를 자주 듣습니다.
하지만 Epoch AI는 보다 냉철한 평가를 내놓았습니다.
인공지능이 창출하는 가치의 대부분은 연구 개발(R&D) 가속화에서 오는 것이 아니라, 경제 시스템 전반에 걸쳐 대량 일자리의 자동화가 광범위하게 이루어지는 데서 비롯될 수 있다.
이는 과거 자료를 보면 1988년부터 2020년까지 지난 30년간 연구개발 활동이 전반적인 생산성 향상에 기여한 바가 실제로는 매우 제한적이었기 때문입니다.
인공지능이 "과학 연구 효율성"을 극대화한다고 해도, 경제를 진정으로 이끄는 것은 실험실에서의 획기적인 발견이 아니라 일상적인 업무 방식의 변화일지도 모릅니다.
바로 여기에 결정적인 논쟁점이 있다!
울트라맨, 데미스 하사비스, 다리오 아모데이와 같은 주요 인사들이 모두 "AI 자동화 연구 개발이 폭발적인 성장의 핵심"이라고 주장한다는 점은 주목할 만합니다.
이러한 평가가 사실이라면, 인공지능의 영향은 빠르고 극적일 것입니다. 인공지능은 갑자기 "과학 연구 자동화의 마지막 관문"을 넘어 몇몇 인공지능 기업들 사이에서 엄청난 도약을 이룰 것입니다.
하지만 Epoch AI는 좀 더 "사회학적인" 관점의 다른 가능성을 제시했습니다.
인공지능은 느리고 분산된 과정을 통해 세상을 바꿀 가능성이 더 높습니다.
단기간에 이루어지지는 않겠지만, 수년 또는 수십 년에 걸쳐 인공지능은 다양한 산업과 조직에 점진적으로 흡수되어 반복적인 노동을 대체할 것입니다.
이러한 상황이라면, 인공지능 혁명은 갑작스러운 폭발이 아니라 오랜 기간에 걸친 흐름이 될 것이다.
참고 자료:
https://x.com/EpochAIResearch/status/2003510001277747518
https://x.com/EpochAIResearch/status/2003559099867496872
https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up
https://x.com/EpochAIResearch/status/2003178174310678644
이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 Aeneas가 작성하고 36Kr의 허가를 받아 게시한 글입니다.




