요원에게는 "연료 게이지"와 "브레이크"가 모두 필요하다: 한 연구 논문이 요원들의 모호한 비밀을 폭로한다.

이 기사는 기계로 번역되었습니다
원문 표시

코드 수정

다음과 같은 상황을 상상해 보세요:

인공지능 에이전트에게 코드 버그를 수정해달라고 요청합니다. 에이전트는 프로젝트를 열고, 20개의 파일을 읽고, 몇 가지 변경 사항을 적용하고, 테스트를 실행하지만 실패합니다. 다시 변경 사항을 적용하고 테스트를 실행하지만 여전히 실패합니다. 이 과정을 10번 이상 반복한 후에도 결국 버그는 수정되지 않습니다.

컴퓨터를 끄고 안도의 한숨을 쉬었습니다. 그런데 바로 그때 API 요금 청구서가 도착했습니다.

위의 수치를 보면 깜짝 놀랄지도 모릅니다. AI 에이전트가 해외 공식 API의 버그를 자율적으로 수정할 때, 수정되지 않은 작업 하나만으로도 수백만 개의 토큰이 소모될 수 있으며, 그 비용은 수십 달러에서 100달러 이상에 달할 수 있습니다.

2026년 4월, 스탠포드, MIT, 미시간 대학교 등이 공동으로 발표한 연구 논문은 인공지능 에이전트가 코딩 작업에 사용하는 비용의 "블랙박스"를 처음으로 체계적으로 분석했습니다. 정확히 어디에 비용이 지출되는지, 그 가치가 있는지, 그리고 사전에 예측 가능한지 등을 밝혀낸 것입니다. 그 결과는 충격적이었습니다.

첫 번째 결과: 에이전트가 코드를 소모하는 속도는 일반적인 AI 대화보다 1000배 빠릅니다.

인공지능이 코드를 작성해주는 것과 코드에 대해 설명해주는 것의 비용이 비슷할 거라고 생각하실 수도 있겠죠?

본 논문은 다음과 같은 비교 결과를 제시합니다.

에이전트 코딩 작업에 필요한 토큰 소모량은 일반적인 코드 질의응답 및 코드 추론 작업에 비해 약 1,000배 더 많습니다.

차이는 무려 세 자릿수나 됩니다.

왜 그럴까요? 논문은 한 가지 사실을 지적합니다. 바로 돈은 "코드를 작성하는 것"이 ​​아니라 "코드를 읽는 것"에 쓰인다는 것입니다.

여기서 "읽기"는 사람이 코드를 읽는 것을 의미하는 것이 아니라, 에이전트가 워크플로우 진행 중에 전체 프로젝트 컨텍스트, 과거 작업 기록, 오류 메시지 및 파일 내용을 모델에 지속적으로 제공하는 것을 의미합니다. 대화가 한 번 더 진행될 때마다 제공되는 컨텍스트의 양이 늘어나며, 모델은 토큰 수에 따라 요금이 부과 됩니다. 즉, 더 많은 정보를 제공할수록 비용이 더 많이 발생합니다.

비유하자면, 수리공을 고용했는데 그 사람이 공구를 사용하기 전에 건물 전체의 설계도를 읽어달라고 하는 것과 같습니다 . 설계도를 읽는 비용이 나사를 조이는 비용보다 훨씬 더 비싼 것이죠.

이 논문은 이러한 현상을 한 문장으로 요약합니다. 에이전트의 비용을 좌우하는 것은 출력 토큰이 아니라 입력 토큰의 기하급수적 증가라는 것입니다.

두 번째 발견: 동일한 버그를 두 번 실행하면 비용 차이가 최대 100%에 달할 수 있으며, 버그 수정 비용이 클수록 안정성이 떨어집니다.

더욱 골치 아픈 것은 무작위성입니다.

연구원들은 동일한 에이전트를 동일한 작업에 네 번 실행하여 다음과 같은 결과를 얻었습니다.

  • 다양한 작업 중에서 가장 비용이 많이 드는 작업은 가장 저렴한 작업보다 약 7백만 개의 토큰을 더 소모합니다(그림 2a).
  • 동일한 모델과 동일한 작업을 여러 번 실행했을 때, 가장 비용이 많이 드는 실행은 가장 비용이 적게 드는 실행보다 대략 두 배 더 비쌌습니다(그림 2b).
  • 하지만 동일한 작업을 서로 다른 모델에서 비교할 때, 가장 높은 리소스 소비량과 가장 낮은 리소스 소비량은 최대 30배까지 차이가 ​​날 수 있습니다.

마지막 수치는 특히 주목할 만한데, 이는 올바른 모델을 선택하는 것과 잘못된 모델을 선택하는 것 사이의 비용 차이가 "약간 더 비싼 것"이 아니라 "10배 이상 더 비싼 것"을 의미한다는 것입니다.

더욱 실망스러운 것은 많은 돈을 쓴다고 해서 반드시 좋은 결과를 얻는 것은 아니라는 점입니다.

논문에서는 역U자형 곡선을 발견했다.

코드 수정

비용 수준별 정확도 추세: 저비용: 낮은 정확도(투자 부족 가능성 있음) ; 중간 비용: 높은 정확도(대부분 최고 수준); 고비용: 정확도가 증가하는 대신 감소하여 "포화 범위"에 진입함.

왜 이런 현상이 발생하는가? 이 논문은 에이전트의 구체적인 작동 방식을 분석함으로써 그 해답을 제시한다.

비용이 많이 드는 운영 과정에서 에이전트는 "반복적인 작업"에 대량 시간을 소비합니다.

연구 결과에 따르면 비용이 많이 드는 작업에서 파일 보기 및 파일 수정 작업의 약 50%가 반복적인 작업입니다 . 즉, 에이전트가 동일한 파일을 반복적으로 읽고 동일한 코드 줄을 반복적으로 수정하는 것입니다. 마치 방 안에서 제자리에서 빙빙 도는 사람이 점점 더 어지러워지고, 어지러움이 심해질수록 더 많이 도는 것과 같습니다.

그 돈은 문제를 해결하는 데 쓰인 것이 아니라, "길을 잃는" 데 쓰였다.

세 번째 결과: "에너지 효율 비율"은 모델마다 크게 다릅니다. GPT-5가 가장 에너지 효율이 높지만, 일부 모델은 150만 개 이상의 토큰을 소각합니다.

이 논문은 업계 표준 SWE-bench Verified (실제 GitHub 이슈 500개 사용)에서 최첨단 대규모 모델 8개의 에이전트 성능을 테스트했습니다. 미국 달러로 환산했을 때, 더 효율적인 토큰 기반 모델과 덜 효율적인 모델 간의 작업당 비용 차이는 수십 달러에 불과합니다. 하지만 하루에 수백 개의 작업을 처리하는 기업용 애플리케이션에서는 이 차이가 상당한 금전적 손실로 이어집니다.

더욱 흥미로운 점은 토큰 효율성이 작업의 결과가 아니라 모델의 "내재적 특성"이라는 것입니다.

연구진은 모든 모델이 성공적으로 해결한 작업(230개)과 모든 모델이 실패한 작업(100개)을 비교한 결과, 모델의 상대적 순위가 거의 변하지 않았다는 것을 발견했습니다.

이는 일부 모델이 본래 "말이 많다"는 것을 보여주는데, 이는 작업의 난이도와는 거의 관련이 없습니다.

또 하나 흥미로운 점은 해당 모델에 "로스 컷 인식"이 부족하다는 것입니다.

어떤 모델도 해결할 수 없는 어려운 과제 대면 때, 이상적인 에이전트는 토큰을 계속 낭비하기보다는 가능한 한 빨리 포기해야 합니다. 하지만 현실에서 모델은 일반적으로 실패한 과제에 더 많은 토큰을 소모합니다 . 즉, "포기"하는 것이 아니라, 마치 연료 경고등이 없는 자동차가 고장 날 때까지 계속 운전하는 것처럼 탐색하고, 재시도하고, 맥락을 다시 분석하는 과정을 반복합니다.

네 번째 발견: 인간이 어렵다고 느끼는 것을 에이전트는 반드시 비용이 많이 든다고 느끼지는 않습니다. 즉, 어려움에 대한 인식이 완전히 일치하지 않습니다.

여러분은 이렇게 생각할지도 모릅니다. "적어도 작업의 난이도를 기준으로 비용을 예상할 수는 있겠지?"

해당 논문에서는 전문가들에게 500개 작업의 난이도를 평가하도록 의뢰한 후, 그 결과를 에이전트의 실제 토큰 소비량과 비교했습니다.

결과: 두 변수 사이에는 약한 상관관계만 존재한다.

쉽게 말해, 인간이 엄청나게 어려워하는 작업은 에이전트가 최소한의 비용으로 쉽게 처리할 수 있지만, 인간이 식은 죽 먹기라고 생각하는 작업도 에이전트에게는 막대한 비용 부담을 안겨주고 존재 이유에 대한 의문을 품게 만들 수 있다는 것입니다.

이는 인간과 인공지능이 "보는" 것의 난이도가 근본적으로 다르기 때문입니다.

  • 사람들은 논리적 복잡성, 알고리즘의 난이도, 그리고 업무 이해하는 데 필요한 최소 수준을 고려합니다 .
  • 에이전트는 프로젝트 규모, 읽어야 할 파일 수, 탐색 경로 길이, 그리고 동일한 파일이 반복적으로 수정될지 여부를 고려합니다 .

인간 전문가가 "한 줄만 바꾸면" 해결될 수 있다고 생각하는 버그도 에이전트는 해당 줄을 정확히 찾아내기 위해 전체 코드베이스 구조를 이해해야 할 수 있으며, 단순히 "읽는" 데만도 대량 토큰이 소모됩니다. 반면, 사람이 "논리적으로 복잡하다"고 여길 만한 알고리즘 문제도 에이전트가 표준 해결 방법을 알고 있다면 순식간에 해결할 수 있습니다.

이로 인해 난감한 현실이 발생합니다. 개발자가 에이전트의 운영 비용을 직관적으로 추정하는 것은 거의 불가능합니다.

결론 5: 심지어 모델 자체도 비용을 정확하게 계산할 수 없었다.

인간이 정확하게 예측할 수 없다면, 인공지능이 스스로 예측하도록 하는 건 어떨까요?

연구원들은 기발한 실험을 설계했습니다. 에이전트는 실제로 버그를 수정하기 전에 코드베이스를 "검사"하고 필요한 토큰 수를 추정하지만, 실제로 수정 작업은 수행하지 않습니다.

결과는 어땠나요?

모든 모델이 삭제되었습니다.

가장 좋은 결과는 Claude Sonnet-4.5 모델이 달성했으며, 출력 토큰에 대한 예측 관련성은 0.39 (1.0 만점)였습니다. 대부분의 모델은 0.05에서 0.34 사이의 예측 관련성을 보였으며, Gemini-3-Pro는 0.04 로 가장 낮은 수치를 기록하여 사실상 추측에 불과했습니다.

더욱 어처구니없는 것은 모든 모델이 토큰 소비량을 체계적으로 과소평가했다는 점입니다. 그림 11의 산점도에서 거의 모든 데이터 포인트가 "완벽한 예측선" 아래에 위치합니다. 즉, 모델은 실제로는 훨씬 더 많은 토큰을 소비했음에도 불구하고 "그렇게 많이 소비하지 않을 것"이라고 예측한 것입니다. 더욱이, 예시가 제공되지 않은 경우 이러한 과소평가 편향은 더욱 두드러집니다 .

더욱 아이러니한 것은 예측 자체에 비용이 든다는 점입니다.

클로드 소네트-3.7과 소네트-4의 예측 비용은 실제 작업 비용의 두 배가 넘습니다 . 다시 말해, 이들에게 비용을 "추정"하도록 하는 것이 실제로 작업을 수행하는 것보다 더 비싸다는 뜻입니다.

논문의 결론은 간단합니다.

현재 최첨단 모델조차도 자체 토큰 사용량을 정확하게 예측할 수 없습니다. "에이전트 실행"을 클릭하는 것은 마치 눈가리개를 여는 것과 같습니다. 청구서가 날아올 때까지 얼마나 사용했는지 알 수 없습니다.

이러한 불투명한 회계 처리 이면에는 훨씬 더 큰 업계 문제가 숨어 있습니다.

여기까지 읽으셨다면, 아마도 이런 질문이 떠오르실 겁니다. 이러한 연구 결과가 기업에 어떤 의미를 갖는 걸까요?

1. "월간 구독" 가격 모델이 에이전트들에 의해 무너지고 있습니다.

이 논문은 ChatGPT Plus와 같은 구독 모델이 실현 가능한 이유는 일반적인 대화의 토큰 소모량이 비교적 제어 가능하고 예측 가능하기 때문이라고 지적합니다. 그러나 에이전트 작업은 이러한 가정을 완전히 무너뜨립니다. 에이전트가 무한 루프에 빠지면서 단일 작업에서 엄청난 양의 토큰이 소모될 수 있기 때문입니다.

이는 순수 구독형 가격 책정 방식이 상담원 시나리오에서는 지속 가능하지 않을 수 있으며 , 상당 기간 동안 종량제 방식이 가장 현실적인 선택지로 남을 것임을 의미합니다. 그러나 종량제 방식의 문제점은 사용량 자체가 예측 불가능하다는 것입니다.

2. 토큰 효율성은 모델 선택을 위한 "세 번째 기준"이 되어야 합니다.

전통적으로 기업들은 역량(수행 가능 여부)과 속도(수행 속도)라는 두 가지 차원을 기준으로 모델을 선택해 왔습니다. 본 논문에서는 이와 동등하게 중요한 세 번째 차원인 에너지 효율성(수행에 필요한 노력의 정도)을 소개합니다.

성능은 약간 떨어지지만 효율성이 세 배 더 높은 모델이 대규모 시나리오에서는 "가장 강력하지만 가장 비싼" 모델보다 경제적으로 더 가치가 있을 수 있습니다.

3. 요원은 "연료 게이지"와 "브레이크" 둘 다 필요합니다.

이 논문은 주목할 만한 미래 연구 방향으로 '예산 인식 도구 사용 정책 '을 언급합니다. 간단히 말해, 에이전트에게 "연료 게이지"를 장착하는 것입니다. 토큰 소모량이 예산에 근접하면, 에이전트는 자원을 낭비하는 대신 비효율적인 탐색을 중단하도록 강제됩니다.

현재 거의 모든 주류 에이전트 프레임 이러한 메커니즘이 없습니다.

에이전트들의 "현금 소진 문제"는 결함이 아니라 업계가 겪어야 할 불가피한 성장통입니다.

이 논문은 특정 모델의 결함을 밝히는 것이 아니라, 인공지능이 "질문과 답변"에서 "자율적인 계획 수립, 다단계 실행, 반복적인 디버깅"으로 진화함에 따라 토큰 소비의 예측 불가능성이 거의 불가피해진다는 점에서 전체 에이전트 패러다임의 구조적 문제점을 지적합니다.

다행스러운 점은 이번에 처음으로 누군가가 이 복잡한 상황을 체계적으로 수면 위로 끌어올려 해결했다는 것 입니다. 이 데이터를 통해 개발자들은 모델 선택, 예산 책정, 로스 컷 메커니즘 설계 등에서 더욱 정보에 입각한 결정을 내릴 수 있습니다. 또한 모델 공급업체들은 최적화를 위한 새로운 방향을 모색할 수 있게 되었는데, 이는 단순히 모델을 더욱 강력하게 만드는 것뿐 아니라 비용 효율성까지 높이는 것을 의미합니다.

결국, AI 에이전트가 다양한 산업 분야의 실제 운영 환경에 투입되기 전에는 모든 비용이 투명하게 사용되도록 보장하는 것이 모든 코드 줄을 아름답게 작성하는 것보다 훨씬 더 중요합니다. (이 기사는 TMTPost 앱에 처음 게재되었으며, 작성자는 실리콘 밸리 테크 뉴스, 편집자는 자오 홍위입니다.)

참고: 이 글은 2026년 4월 24일 arXiv에 게재된 사전 공개 논문 *인공지능 에이전트는 어떻게 돈을 쓰는가? 에이전트 코딩 작업에서 토큰 소비 분석 및 예측* (Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei)을 기반으로 합니다. 저자들은 버지니아 대학교, 스탠퍼드 대학교, MIT, 미시간 대학교 등 여러 기관에 소속되어 있습니다. 이 연구는 아직 동료 심사를 거치지 않았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
65
즐겨찾기에 추가
15
코멘트