첫번째 OpenAI 무료 추론 모델 o3-mini 출시

이 기사는 기계로 번역되었습니다
원문 표시

DeepSeek는 대규모 모델 분야에 속도를 내는 것 같습니다 -

방금 전, OpenAI는 새로운 추론 모델인 o3-mini 시리즈를 긴급 발표했습니다.

총 3개 버전이 포함되어 있습니다: low, 폴리곤(Matic) 및 high.

o3-mini와 o3-mini-high가 이미 출시되었습니다:

공식 발표에 따르면, o3 시리즈 모델은 저비용 추론의 경계를 확장하는 것을 목표로 합니다.

ChatGPT Plus, 팀 및 Pro 사용자는 오늘부터 OpenAI o3-mini에 액세스할 수 있으며, 기업 액세스는 1주일 후에 열릴 예정입니다.

무료 사용자도 "Search+Reason"을 선택하여 o3-mini를 사용할 수 있습니다.

DeepSeek에 밀려 급했던 것 같습니다. 이는 OpenAI가 처음으로 사용자에게 무료로 제공하는 추론 모델입니다.

이후 Reddit의 "질문에 답변하기" 행사에서 CEO 오트만은 드물게 공개적으로 반성했습니다:

오픈 소스 AI 모델 문제에서 (개인적으로) 우리는 역사적으로 잘못된 편에 섰다고 생각합니다.

동시에 몇 시간 만에 네티즌들이 열심히 테스트하기 시작했습니다...

STEM 추론 최적화, 하지만 가격은 DeepSeek-R1보다 여전히 비쌉니다

먼저 기술 보고서에 무엇이 쓰여 있는지 살펴봅시다.

지난해 말, OpenAI는 o3-mini 미리보기를 출시했고, 소형 모델 성능 경계를 다시 한번 넓혔습니다. (비용과 저지연 면에서 o1-mini와 동등)

당시 CEO 오트만은 정식 버전이 올해 1월에 출시될 것이라고 예고했습니다. 마지막 시간에 막혀 있던 정식 버전 o3-mini가 마침내 출시되었습니다.

전반적으로 이전 세대 o1-mini와 유사하게, STEM(과학, 기술, 공학, 수학)을 최적화했고 mini 시리즈의 작지만 강력한 스타일을 계승했습니다.

o3-mini(폴리곤(Matic))만 해도 수학 코딩 성능이 o1 시리즈와 동등할 뿐만 아니라 응답 속도도 더 빠릅니다.

인간 전문가 평가에 따르면 대부분의 경우 o3-mini가 o1-mini보다 더 정확하고 명확한 답변을 제공하여 56%의 선호도를 얻었으며, 복잡한 현실 문제를 처리할 때의 주요 오류율도 39% 감소했습니다.

수학 능력 면에서 추론 강도가 낮은 o3-mini(low)는 o1-mini와 동등한 수준에 도달했고, 중간 추론 강도에서는 o1과 맞먹으며, 추론 강도를 최대로 올리면(high) o1 시리즈를 능가했습니다.

60명 이상의 최고 수학자가 준비한 FrontierMath 난제 테스트에서 추론 강도가 높은 o3-mini는 o1 시리즈에 비해 크게 향상되었습니다.

공식적으로 Python 도구와 함께 사용하면 o3-mini(high)가 첫 시도에 32% 이상의 문제를 해결했으며, 그 중 28% 이상이 T3 수준 문제였다고 밝혔습니다.

과학 능력 측면에서 추론 강도가 낮은 o3-mini는 이미 PhD 수준의 물리화학 문제에서 o1-mini와 격차를 벌렸습니다.

물론 코딩 능력에서 o3-mini는 모든 수준에서 o1 시리즈를 앞섰습니다.

LiveBench의 성과를 보면 추론 강도가 높아질수록 o3-mini의 우위가 더욱 커지는 것을 알 수 있습니다.

또한 주목할 점은 o3-mini가 이러한 우위를 점하면서도 응답 속도가 더 빨라졌다는 것입니다. 평균 응답 시간이 7.7초로 o1-mini의 10.16초보다 24% 향상되었습니다.

마지막으로 안전 평가 측면에서 o3-mini는 여러 안전 평가에서 GPT-4o를 명확히 능가했습니다.

가격 면에서 입력/출력이 각각 0.14/0.55달러인 DeepSeek-R1과 비교하면 o3-mini는 여전히 천문학적으로 비쌉니다.

네티즌들의 날카로운 평가에 따르면 DeepSeek-R1이 여전히 성능 대비 가격이 최고입니다: 더 빠르고, 더 좋고, 더 저렴합니다.

BTW, OpenAI는 이번에도 o3-mini 뒤에 있는 팀을 공개했습니다. 이번에는 오트만 본인이 직접 팀을 이끌고 있으며, 연구 프로젝트 관리자는 Carpus Chang과 Kristen Ying입니다(명단에는 우리가 잘 알고 있는 친구들인 Renhonyu, Zhaoshengjia 등도 있습니다).

네티즌들이 열심히 테스트 중

방금 언급했듯이 현재 네티즌들이 열심히 테스트하고 있습니다.

하지만 평가를 보면 o3-mini의 성능에 대해 엇갈린 반응을 보이고 있습니다.

예를 들어 Python으로 "4차원 공간 내부의 공 튕기기" 작업을 수행할 때 어떤 사람은 o3-mini가 최고의 LLM이라고 생각합니다:

결과는 이렇습니다:

그런 다음 다른 네티즌이 DeepSeek로 같은 작업을 시도했는데, 효과 면에서 o3-mini가 약간 더 나은 것으로 보입니다:

더 직접적인 비교로, 회전하는 육각형 내부에서 공이 튕기도록 하여 공이 중력과 마찰력의 영향을 받게 하면 o3-mini와 DeepSeek R1의 차이가 더 뚜렷해집니다:

더 복잡한 작업에서도 o3-mini는 공 100개를 공 내부에 생성할 수 있습니다:

또한 o3-mini로 두 마리의 먹이 사냥 뱀이 경쟁하는 게임을 설계하도록 했습니다:

DeepSeek 외에도 네티즌들은 o1과 o3-mini의 효과를 비교했는데, 예를 들어 거대하고 놀라운 서사적 부유 도시를 생성했습니다.

또 다른 네티즌은 거의 모든 대규모 모델에 오류를 일으키는 혼란스러운 문제를 제기했는데, 놀랍게도 o3-mini가 정답을 맞혔습니다:

그러나 유명 팟캐스터 Lex Fridman은 o3-mini에 대해 다음과 같이 평가했습니다:

OpenAI o3-mini는 좋은 모델이지만 DeepSeek R1의 성능이 유사하고 가격이 더 낮으며 추론 과정을 공개했습니다.

더 나은 모델이 나올 것입니다(o3-pro를 기다리고 있습니다), 하지만 "DeepSeek 시대"는 진실입니다. 5년 후에도 이것이 기술 역사의 전환점으로 기억될 것이라고 생각합니다.

One More Thing

o3-mini 출시 몇 시간 만에 오트만 본인과 팀이 Reddit의 "질문에 답변하기" 행사에 참여했습니다.

최근 DeepSeek가 AI 계를 뒤흔들고 있는 것을 고려할 때, 오트만은 드물게 공개적으로 반성했습니다:

오픈 소스 AI 모델 문제에서 (개인적으로) 우리는 역사적으로 잘못된 편에 섰다고 생각합니다.

심지어 OpenAI의 선도적 우위가 이전만큼 크지 않을 것이라고 인정했습니다.

DeepSeek는 정말 훌륭하며 우리도 계속해서 더 나은 모델을 개발할 것이지만, 선도적 우위는 더 작아질 것입니다.

동시에 OpenAI의 향후 계획도 공개되었습니다.

예를 들어 고급 음성 모드가 곧 업데이트될 예정이며, OpenAI는 GPT-5o 대신 GPT-5라고 직접 부를 것이지만 아직 구체적인 일정은 없습니다.

또한 추론 모델이 더 많은 도구를 호출할 수 있게 될 것입니다.

마지막으로 풀 버전 o3도 언급되었지만 아직 멀어 보입니다...

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
2
즐겨찾기에 추가
1
코멘트