GPT 5.4는 '안녕하세요' 메시지 하나에 80달러를 청구합니다. OpenAI는 구글의 새로운 논문을 살펴봐야 할 것입니다.

이 기사는 기계로 번역되었습니다
원문 표시

지난 몇 년 동안 더욱 효율적이고 개선된 인프라 덕분에 AI 토큰 가격이 하락했으며, 모두가 가격 인하 경쟁을 벌이고 있습니다.

하지만 최근 OpenClaw처럼 강력한 에이전트 기능을 갖춘 뛰어난 애플리케이션의 인기가 급증하면서 API(애플리케이션 프로그래밍 인터페이스) 비용은 이러한 추세를 거스르고 급증했습니다. 에이전트 작동 자체로 인해 발생하는 엄청난 양의 컨텍스트 스태킹 외에도, 이 모든 것의 이면에는 점점 길어지고 심지어 통제 불능 상태에 빠지기까지 하는 "사고의 사슬(Chain-of-Thought, CoT)"이라는 숨겨진 비용 낭비 요소가 존재합니다.

OpenAI의 o1 모델이 테스트 시간 컴퓨팅에 혁명을 일으킨 이후, 더 오래 생각할수록 성능이 향상된다는 아이디어는 일반 인공지능의 만병통치약처럼 여겨졌습니다. 오늘날 우리가 주력 추론 모델을 호출할 때, 그 백그라운드 사고 시간은 실제로 기하급수적으로 증가하여 수천 단어에 달하는 내부 독백을 쏟아내는 경우가 많습니다. OpenAI는 2025년 1월 실적 발표에서 o1 시리즈의 요청당 평균 토큰 비용이 GPT-4o의 2.7배에 달하며, 일부 프로그래밍 작업에서는 이 배율이 5배 이상에 이를 수도 있다고 밝혔습니다.

이러한 추세는 멈출 기미가 보이지 않습니다. 예를 들어, 최근 출시된 GPT 5.4 Pro(가격 80달러)는 "안녕하세요"라는 인사말에 답하는 데 5분 18초가 걸렸습니다.

이처럼 긴 사고 과정이 정말 유용한 것일까요? 실제로 언제 유용할까요? 모델의 사고 과정을 줄이고 효율성을 높이려면 어떻게 해야 할까요? 이 질문은 O1이 처음 개발된 이후 연구자들을 괴롭혀 왔습니다. 다양한 해석과 해결책이 제시되었지만, 효과적인 사고 토큰을 선택하는 문제를 완전히 해결한 것은 없었습니다. 현재 업계의 주류 접근 방식은 모델이 스스로 사고의 필요성을 판단하는 라우팅 방식입니다.

2026년 2월, 구글은 "단순히 오래가는 것이 아니라 깊이 생각하라"라는 제목의 보고서를 통해 보다 근본적인 해결책을 제시했습니다.

간단히 말해, 모델의 사고방식이 유용한지 알아보려면 그 사고방식이 얼마나 심층적인지 살펴봐야 합니다.

01 많다고 반드시 좋은 것은 아니다

연쇄사고(Chain-of-Thought, CoT)의 등장은 사실 GPT보다 앞섭니다. 2022년, 구글 연구원들이 거의 동시에 발표한 두 편의 논문은 CoT를 추론의 패러다임으로 정립했습니다. 첫 번째 논문인 "Chain-of-Thought Prompting"에서는 소수의 예제에 추론 과정을 추가함으로써 대규모 모델이 산술, 상식, 기호 추론과 같은 작업에서 상당한 성능 향상을 이룰 수 있음을 보여주었습니다. 특정 설정에서는 정확도가 거의 0%에서 60% 이상으로 급증할 수 있었습니다. 두 번째 논문인 "Zero-shot CoT"에서는 잘 알려진 "단계별로 생각해 보자"라는 명령어를 제안했습니다. "Prompt" 뒤에 이 명령어를 추가하면 모델의 다단계 추론 기능이 활성화됩니다.

이 두 가지 발견은 빠르게 업계의 합의로 자리 잡았고, 복잡한 추론이 필요한 거의 모든 애플리케이션에서 CoT를 기본적으로 활성화하기 시작했습니다. 연구자들은 CoT가 효과적이라는 점을 고려할 때, 더 긴 CoT는 훨씬 더 효과적일 것이라고 자연스럽게 추측했습니다.

2023년부터 2024년 상반기까지, 모델이 더 길고 정교한 추론 체인을 생성할 수 있도록 하는 방법에 대한 연구가 대량 진행되었습니다. 일부 방법은 큐 엔지니어링을 통해 더 상세한 분해를 유도했고, 다른 방법은 강화 학습을 통해 더 긴 CoT(Copy-on-Time) 흐름을 장려했으며, 또 다른 방법은 대규모 모델이 생성하는 긴 추론 체인을 훈련 중에 더 작은 모델로 축소했습니다. 이러한 추론 체인의 길이를 늘리려는 노력은 O1 출시와 함께 정점에 달했으며, 이는 테스트 타임 컴퓨팅 혁명을 가져왔습니다. 이 혁명의 핵심은 추론 과정에서 더 긴 내부 사고를 생성하는 것이었습니다.

문제가 발견되었습니다

하지만 O1 발사 6개월 전인 2024년 여름, 여러 기관의 연구원들이 이러한 아이디어의 타당성에 의문을 제기하기 시작했습니다.

예를 들어, 스탠포드 대학교의 한 연구팀은 o1과 Claude의 추론 행동을 분석하면서, 간단한 초등 산술 문제의 경우 이 모델들이 수백 또는 수천 개의 추론 텍스트를 생성하지만, 그 대부분은 반복적인 검증, 자기 의심, 그리고 여러 해법을 시도하는 과정인 반면, 인간은 단 두세 번의 암산만으로 이러한 문제를 해결할 수 있다는 사실을 발견했습니다.

이러한 장황한 추론 과정을 수동으로 단축했을 때, 답변의 정확도는 떨어지지 않았고, 오히려 약간 상승 경우도 있었습니다. 이는 모델이 실제로 그렇게 많은 사고 과정을 필요로 하지 않으며, 단지 훈련 후 보상을 통해 지속적으로 새로운 아이디어를 생성한다는 것을 시사합니다.

2025년 5월, "When More is Less"라는 제목의 논문은 이 현상을 더욱 정확하게 규명했습니다. 연구진은 통제된 실험을 통해 다양한 길이의 추론 사슬을 구성하고, 난이도가 다양한 과제에서 길이-정확도 곡선을 그렸습니다. 그 결과, 추론 사슬의 길이와 최종 결과의 정확도 사이의 관계는 역U자형 곡선임을 발견했습니다.

U의 최고점을 넘지 않는 범위 내에서 단계 수를 늘리는 것은 도움이 되지만, 이 범위를 벗어나면 정확도가 단조적으로 감소하기 시작합니다. 또한, 최적의 단계 수는 작업 난이도와 모델 성능에 따라 달라집니다. 더 어려운 문제의 경우 최적 단계 수는 오른쪽으로 이동하지만, 더 뛰어난 모델의 경우 최적 단계 수가 왼쪽으로 이동하는데, 이는 더 강력한 모델이 언제 멈춰야 하는지 더 잘 판단한다는 것을 시사합니다.

논문 저자들은 이러한 현상을 "단순성 편향"이라고 부릅니다. 모델이 문제의 핵심을 파악한 후에는 토큰을 계속 생성해도 노이즈와 간섭만 누적될 뿐입니다. 특정 임계점을 넘어서면 모델은 "과도한 사고"라는 늪에 빠지게 됩니다. 이러한 역 확장 범위에서는 실제 돈으로 구매하는 추가 토큰이 지능을 향상시키기는커녕 오히려 정확도를 떨어뜨립니다.

COT의 해부

그렇다면 수만 단어에 달하는 이 엄청나게 긴 토큰들은 정확히 어디로 사라진 걸까요?

긴 추론 과정을 형성하는 데에는 크게 세 가지 유형이 있으며, 이 모든 유형은 과도한 생각이라는 문제에 직면합니다.

첫 번째 유형은 선형 확장입니다. 이 모델은 마치 스케치를 하듯이 각 단계에서 새로운 중간 결과를 생성하며 단계적으로 진행됩니다. 이는 가장 고전적인 CoT(Center of Theory) 형태입니다. 여기서 발생하는 과도한 사고 문제는 주로 모델이 언제 멈춰야 할지 모르는 데서 비롯됩니다. 모델은 답을 찾은 후에도 계산을 계속 검증하거나, 세 가지 다른 방법을 사용하여 동일한 문제를 반복적으로 해결합니다.

두 번째 접근 방식은 성찰 주기입니다. 초기 답변을 생성한 후, 모델은 자체 질문 메커니즘을 작동시켜 지속적으로 자체 수정 텍스트를 생성합니다. 이는 복잡한 문제에는 매우 유용하지만, 간단한 문제에 대해 성찰하는 것은 과도한 생각으로 이어질 수 있습니다.

세 번째 방법은 다중 경로 샘플링입니다. 시스템의 견고성을 향상시키기 위해 수십 개에 달하는 다양한 추론 경로를 생성하고, 투표를 통해 가장 일관성 있는 답을 선택합니다. 이 방법은 특히 복잡한 문제를 해결할 때 효과적이지만, 비용이 기하급수적으로 증가한다는 단점이 있습니다. 또한, 이러한 후보 추론 경로 중 상당 부분이 신뢰할 수 없으며, 이를 효과적으로 제거하지 못하면 과도한 고민으로 이어질 수 있습니다.

*When More is Less*의 저자들은 역U자형 곡선의 오른쪽 절반을 분석하면서 정확도가 떨어진 샘플의 90% 이상에서 반복적인 검증과 잘못된 판단이 대량 포함되어 있음을 발견했습니다. 이는 과도한 사고의 본질이 반복에 대한 욕구라는 것을 의미합니다. 모델이 이미 답을 알고 있더라도 학습 메커니즘은 모델이 끊임없이 변형과 확인을 생성하도록 유도하며, 이러한 중복이 정확도를 떨어뜨리는 주범입니다.

이 세 가지 메커니즘과 제어 불능 상태를 이해해야만 목표에 맞는 제어 전략을 설계할 수 있습니다.

길이를 조절하려는 시도

2025년 중반에 이르러 학계와 산업계는 과도한 생각에 대한 공감대를 형성하게 되었습니다. 이제 질문은 "과도한 생각이 존재하는가?"에서 "과도한 생각을 정확하게 식별하고 통제하는 방법"으로 바뀌기 시작했습니다.

가장 직접적인 접근 방식은 엄격한 제한을 두는 것입니다. 예를 들어, 토큰 예산 인식 LLM 추론과 같은 방법은 프롬프트에서 모델에게 "사용할 수 있는 단어 수는 이만큼입니다"라고 명시적으로 알려줌으로써 모델이 간결하게 표현하도록 강제합니다. 그러나 이러한 단순한 접근 방식에는 치명적인 결함이 있습니다. 바로 어려운 문제를 해결하지 못한다는 것입니다.

더 나은 해결책은 시스템이 언제 멈춰야 할지 동적으로 판단하도록 하는 것입니다. *REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference*에서 제안된 방법은 추론 과정에서 중복 신호를 실시간으로 모니터링하는 것입니다. 모델이 반복적으로 검증을 수행하거나, 반복적인 반사 과정에 갇히거나, 자기 의심의 굴레에 빠지면 시스템은 즉시 중지됩니다. 이러한 중지 전략을 통해 모델 자체를 수정하지 않고도 토큰 소비량을 20%에서 55%까지 줄이면서 정확도를 유지하거나 향상시킬 수 있습니다.

또 다른 접근 방식은 라우팅입니다. DynaThink나 DAST 같은 프레임 각 문제에 대해 빠른 평가를 수행합니다. "2+3은 얼마인가?"와 같은 간단한 문제의 경우 단순히 답을 출력하고, 복잡하고 어려운 문제의 경우 완전한 추론 과정과 다중 경로 샘플링을 시작합니다. 그러나 라우팅을 구현한 후 GPT 5가 난이도 오판으로 인해 처참한 성능을 보인 사례는 이 방법 또한 완벽하지 않다는 것을 보여줍니다.

다양한 샘플링과 투표에 의존하는 해시레이트 모델의 경우, 연구자들은 조기 종료 메커니즘을 개발했습니다. 조기 종료 자기 일관성(ESC)은 샘플링 과정을 지속적으로 모니터링하고, 여러 답변이 안정적인 합의에 도달하면 더 이상 샘플을 생성하는 데 해시레이트 낭비할 필요가 없습니다. GSM8K와 같은 수학적 벤치마크에서 이 메커니즘은 샘플 수를 최대 80%까지 줄일 수 있습니다.

보다 근본적인 접근 방식은 모델 자체를 원천적으로 수정하는 것입니다. 예를 들어, 일부 연구자들은 사후 학습에 기대를 걸고 있습니다. "단계별로 검증해 보자"라는 논문에서는 프로세스 보상 모델(PRM)을 사용하여 모든 문제를 해결하고자 했습니다. 모델이 학습되면 최적의 해법에 따라 답을 제공하므로 불필요한 코드 작성을 크게 줄일 수 있습니다. 또는 신중하게 선택된 간결하지만 정확한 방법을 사용하여 모델을 미세 조정함으로써 출력값을 더욱 근사치로 만들 수도 있습니다. 그러나 PRM의 설계 또는 미세 조정은 여전히 ​​제어하기 매우 어려운 과정입니다.

다양한 방법이 있지만, 모든 방법은 공통적인 딜레마에 직면합니다. 즉, "언제 가치 있는 것에 대해 계속 생각해야 하고 언제 쓸모없는 텍스트만 쌓아둬야 하는지"를 판단할 수 있는 특별히 신뢰할 만한 신호가 없다는 것입니다.

현재 해결책들은 대부분 반복되는 패턴, 신뢰도 변화, 일관성 수렴, 과거 통계와 같은 표면적인 특징에 의존합니다. 이러한 것들은 모두 간접적인 지표이며, 마치 옆에서 관찰하는 것과 같습니다.

그렇다면 효과적인 사고와 비효율적인 반복을 구분하는 핵심적인 지표는 무엇일까요?

02 유용한 사고 추구

구글의 논문은 효과적인 사고의 증거를 찾는 가장 직접적인 방법은 트랜스포머 아키텍처 깊숙이 탐침을 삽입하여 각 단어를 생성할 때 실제로 사고하는지 관찰하는 것이라고 제안합니다.

대규모 모델이 토큰을 생성할 때, 해당 신호는 처리를 위해 수십, 심지어 수백 개의 신경망 레이어를 거칩니다. 이 논문의 연구진은 모델이 겪는 처리 과정의 어려움이 생성되는 토큰의 종류에 따라 크게 달라진다는 사실을 발견했습니다.

"and", "is", 수학 공식의 "="와 같이 모델이 이미 익숙한 간단한 문법 용어, 상식적인 표현 또는 일반적인 개념의 경우 예측 확률은 트랜스포머의 매우 얕은 계층에서 이미 고정되어 있습니다. 이후 수십 개의 계층에 걸쳐 있는 막대한 해시레이트 이러한 단어에 대해서는 실질적인 계산 수정 없이 단지 형식적인 절차일 뿐입니다.

하지만 방정식의 숫자, 논리적 연결어, 또는 정답 자체와 같이 추론이 필수적인 핵심 요소의 경우, 모델의 예측은 수렴하기 전에 매우 심층적인 수준으로 수정됩니다.

연구진은 중간 계층과 최종 출력 간의 분포 차이를 측정하기 위해 수학적 발산을 사용하여 "심층 사고율(Deep Thinking Rate, DTR)"이라는 지표를 제안했습니다. DTR은 주어진 텍스트에서 네트워크의 심층부에 도달할 때까지 진동 상태를 유지하는 토큰의 비율을 나타냅니다.

대부분의 토큰이 최종 정산에 심층적인 연산을 필요로 한다면 DTR은 높아질 것이고, 모든 토큰이 얕은 연산으로 정산될 수 있는 간단한 토큰이라면 DTR은 낮아질 것입니다.

이 지표는 앞서 제기된 여러 근본적인 질문들을 설명해 줄 수도 있습니다.

왜 추론 과정의 길이가 정확도와 반비례할까요? 긴 추론 과정에는 "다시 생각해 보겠습니다..." 또는 "잠깐, 어쩌면..."과 같은 피상적인 표현이 많아지기 때문입니다. 이러한 표현들은 추론 과정을 길게 만들 뿐 실질적인 사고를 유도하지 못합니다.

짧은 체인이 높은 정확도를 유지할 수 있는 이유는 무엇일까요? 이러한 체인은 고도로 압축되어 있어 거의 모든 토큰에 대해 심층적인 연산이 필요하고, DTR(디지털 트레이딩 정확도)이 한계에 가까워졌기 때문입니다.

이 논문은 전형적인 사례를 제시합니다. 동일한 기하 문제를 풀 때, 오답 샘플은 27,724개의 토큰을 사용했고 DTR은 13.9%에 불과했습니다. 반면 정답 샘플은 3,725개의 토큰만 사용했고 DTR은 19.0%였습니다. 전자는 90%가 무의미한 정보인 반면, 후자는 가치 있는 정보로 가득 차 있습니다.

연구진은 자신들이 올바른 기준을 찾았다는 것을 증명하기 위해 2024년과 2025년 AIME 수학 경시대회, 2025년 HMMT, 그리고 대학원 수준의 GPQA 과학 퀴즈에서 GPT-OSS, DeepSeek-R1, Qwen3를 포함한 여러 추론 모델 계열을 테스트했습니다. 그 결과, DTR이 정확도와 완벽한 양의 상관관계를 보인다는 것이 입증되었습니다.

따라서 DTR은 표면적인 단어 수가 아니라 모델의 내부 역학을 기반으로 사고의 질을 평가하는 기준을 제공한다는 것을 확인할 수 있습니다.

DTR을 기반으로, 본 논문은 특히 가장 비용이 많이 드는 멀티샘플링 모드에 최적화된 Think@n 방법을 제안합니다. 기존 방식은 투표 전에 수십 개의 완전한 추론 체인을 생성하는 반면, Think@n은 각 스레드가 초기에 50개의 단어만 출력하고 즉시 DTR을 계산하도록 요구합니다. DTR이 매우 낮아 진부한 표현을 반복하는 스레드는 종료되어, 처음부터 강력한 심층 연산 능력을 보여주는 잠재력 높은 후보에만 해시레이트 집중시킬 수 있습니다. 실험 결과, Think@n은 기존 방식보다 절반의 토큰으로 더 나은 성능을 달성하거나 능가하는 것으로 나타났습니다.

하지만 이 논문은 여전히 ​​중대한 한계를 지니고 있습니다. 단순히 심사위원의 역할만 수행하며, 테스트 단계에서 생성된 후보들을 걸러내는 데 그칩니다.

하지만 미래의 방향은 사실 꽤 명확합니다. DTR을 강화 학습(RL) 단계의 보상 신호로 완전히 전환할 수 있습니다. 미래의 모델 정렬 단계에서 단순히 정답을 맞춘 모델에게 보상하는 대신, 높은 DTR 농도를 보상 함수 중 하나로 사용한다면 모델의 동작 방식을 근본적으로 바꿀 수 있습니다. 이렇게 하면 모델은 막대한 계산량을 매우 정교하고 고품질의 출력으로 압축하는 방법을 학습하게 될 것입니다.

이는 장기적인 사고에서 심층적인 사고로의 본질적인 전환을 의미합니다. 지능은 더 이상 토큰의 개수로 측정되는 것이 아니라, 계산 밀도로 측정됩니다.

03. 가장 효율적인 사고방식은 무엇일까요?

DTR은 모델이 더 의미 있는 사고를 하는지 관찰하는 데 좋은 기준을 제공하며, 근본적으로 과도한 사고로 인한 동일시 문제를 해결합니다.

하지만 왜 이러한 심층적인 성찰이 더 효과적인지에 대한 답은 제시되지 않았습니다.

카네기 멜론 대학교와 뉴욕 대학교의 최근 논문인 "엔트로피에서 명목상 복잡성까지: 계산 제약이 있는 에이전트를 위한 정보 이론의 재창조"는 정보 이론에 대한 단서를 제공합니다.

전통적인 정보 이론은 무작위 정보, 즉 엔트로피에 초점을 맞춥니다. 섀넌은 텍스트에 담긴 정보의 양은 예측 불가능성에 달려 있다고 말합니다. 엔트로피가 높을수록 텍스트에는 더 많은 정보가 포함되어 있습니다.

하지만 이것으로는 알파고와 같은 딥러닝 기반 자기판독 모델을 전혀 설명할 수 없습니다. 입력값은 엔트로피가 매우 낮은 게임 규칙뿐이지만, 모델은 계산(추론 과정)을 통해 매우 다양한 출력값을 도출해낼 수 있습니다.

이 논문은 모든 지능형 에이전트가 유한한 해시레이트 가지고 있다는 사실에 핵심이 있다고 주장합니다. 우리는 엔트로피로부터 무한히 학습할 수 없으므로, 이러한 시스템에서 데이터의 가치는 무작위성(엔트로피)에 있는 것이 아니라 데이터가 내포 하는 학습 가능한 구조적 복잡성에 있습니다.

해시레이트 제한적인 관찰자(예: 인간 플레이어 또는 AI 모델)의 경우, 게임 트리 전체를 무차별 대입 방식으로 열거하는 것은 비현실적이므로, 더 높은 차원의 추상적 패턴을 클레임 해야 합니다. 이러한 패턴의 길이는 게임 규칙 자체를 훨씬 능가합니다.

이것이 바로 COT가 유용한 이유입니다.

그들은 이러한 구조적 복잡성을 에피플렉시티(epiplexity)라고 정의했습니다.

무작위로 생성된 API 키 문자열은 엔트로피는 높을 수 있지만, 모델이 이를 통해 학습할 수 있는 정보가 없기 때문에 에피플렉서티는 0에 가깝습니다. 반대로, 알고리즘 코드는 엔트로피는 낮을 수 있지만, 모델이 이를 이해하기 위해 복잡한 내부 표현을 구축해야 하므로 에피플렉서티는 높을 수 있습니다.

이는 높은 DTR을 사용한 추론이 더 효율적인 이유를 설명합니다. 왜냐하면 더 많은 에피플렉시티를 생성하기 때문입니다.

모델이 심층 추론을 수행할 때, 단순히 기억을 불러오거나 표면적인 규칙을 적용하는 것이 아니라 실시간으로 새로운 인지 구조를 구축합니다 .

전통적인 이론에 따르면 결정론적 변환으로는 정보를 추가할 수 없기 때문에 이는 불가능하다고 합니다. 그러나 에피플렉시티는 이러한 전략들이 갑자기 나타나는 것이 아니라 계산 과정 자체에 의해 생성되는 구조라고 말합니다.

본 논문은 추론 과정을 구조화된 정보의 생성기 로 재정의한다.

전통적인 관점 추론이란 해 공간을 탐색하는 과정이라고 봅니다. 그러나 에피플렉시티 관점은 훌륭한 추론이란 단순히 탐색하는 것이 아니라, 해 공간을 표현하는 방식을 역동적으로 변화시키는 과정 이라고 말합니다. 마치 수학자들이 단순히 정리를 나열하는 데 그치지 않고, 복잡한 문제를 단순화하기 위해 새로운 수학적 대상과 증명 기법을 고안해내는 것과 같습니다.

이러한 단계들의 공통적인 특징은 문제 공간에 추가적인 구조를 부여한다는 점입니다. 진정으로 가치 있는 추론 토큰은 모델이 새로운 내부 구조를 구축하고, 새로운 패턴을 발견하며, 더욱 추상적인 규칙을 추출하도록 만드는 토큰이어야 합니다 . 이러한 토큰의 특징은 얕은 패턴 매칭으로는 더 이상 충분하지 않기 때문에, 이를 생성하려면 심층 신경망의 모든 연산 능력(높은 DTR)을 활용해야 한다는 것입니다.

더 나아가, 이는 지능에 대한 우리의 이해 방식도 바꿀 수 있습니다. 중요한 것은 얼마나 많은 정보를 처리하느냐가 아니라 얼마나 많은 구조를 만들어내느냐입니다 . 알파제로(AlphaZero)는 자기 플레이를 통해 바둑 전략을 만들어냈고, 인간 과학자들은 실험을 통해 물리 이론을 구축했으며, 언어 모델은 심층적인 추론을 통해 문제에 대한 구조화된 표현을 만들어냈습니다. 이들은 모두 본질적으로 동일합니다. 즉, 계산 능력이 제한된 지능형 에이전트가 세상에서 압축 가능한 패턴을 클레임 시도하는 것입니다.

CoT(기술 중심 사고)에서 과도한 사고, 그리고 심층적 사고로의 진화를 더 큰 역사적 맥락에서 살펴보면, 이는 인공지능 시스템이 역량 중심에서 자원 중심 시스템으로 전환되는 과정을 보여주는 축소판이라고 할 수 있습니다. 초기 딥러닝 혁명은 "우리가 할 수 있을까?", "텍스트를 생성할 수 있을까?", "바둑에서 이길 수 있을까?"와 같은 "우리가 할 수 있을까?"라는 질문에 대한 답을 제시했습니다. 테스트 타임 컴퓨팅 혁명은 "우리가 더 어려운 작업을 수행할 수 있을까?", "수학 정리를 증명할 수 있을까?", "버그 없는 코드를 작성할 수 있을까?", "복잡한 프로젝트를 계획할 수 있을까?"와 같은 질문을 제기했습니다.

하지만 이제 이러한 기능들이 성숙해짐에 따라, 핵심적인 질문은 "어떻게 하면 가장 경제적으로 수행할 수 있을까?"가 되었습니다. 즉, 최소한의 연산으로 동일한 품질을 달성하는 방법, 작업 난이도에 따라 자원을 동적으로 할당하는 방법, 그리고 불필요한 방향으로 연산 자원을 낭비하지 않는 방법이 그것입니다.

과도한 생각이라는 문제의 출현은 이러한 과도기의 필연적인 산물이다.

이러한 관점에서 DTR과 에피플렉시티는 단순한 측정 도구가 아니라 새로운 디자인 철학입니다. 이는 사고의 가치가 얼마나 많은 텍스트를 생성하는가에 있는 것이 아니라, 텍스트 이면에 얼마나 많은 구조화된 연산이 수행되는지, 그리고 이러한 연산이 새로운 작업에 어느 정도까지 적용될 수 있는지에 있다는 것을 알려줍니다.

이는 '장기적 사고'에서 '심층적 사고'로의 진정한 도약이며, 토큰이 점점 더 부족해지는 세상에서 해시레이트 병목 현상을 해결하는 효과적인 방법입니다.

이 글은 위챗 공식 계정 "텐센트 테크놀로지" 에 게재된 글이며, 작성자는 보양(Bo Yang)이고, 36Kr의 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트