알리바바 큐엔 3.7-맥스, 자동 암묵적 캐싱 기능 도입으로 입력 비용 최대 80% 절감.

이 기사는 기계로 번역되었습니다

원문 표시

Beating의 모니터링 결과에 따르면, 알리바바의 Qwen 팀은 알리바바 클라우드 바이롄 플랫폼에서 자사의 주력 모델인 Qwen3.7-Max에 자동 암묵적 캐싱 기능을 기본적으로 활성화했다고 발표했습니다. 개발자는 코드 수정이나 추가 매개변수 설정 없이 캐싱 및 비용 절감 효과를 바로 누릴 수 있습니다. 새로운 과금 방식에서는 시스템이 요청에서 반복되는 컨텍스트 접두사를 자동으로 식별하고 클레임. 캐시 적중이 발생하면 해당 부분에 대한 입력 토큰 비용은 원래 단가의 20%에 불과하여 입력 비용의 80%를 절감할 수 있습니다. 암묵적 캐싱은 장문 텍스트 및 에이전트 시나리오에서 발생하는 막대한 오버헤드를 효과적으로 해결합니다. Qwen3.7-Max는 100만 토큰에 달하는 긴 컨텍스트 윈도우를 가지고 있어 자율 코딩과 같은 고수준 작업을 실행할 때 대규모 코드베이스나 지식 문서를 빈번하고 반복적으로 읽어야 합니다. 한 개발자는 Qwen3.7을 테스트한 후 탱크 전투 웹페이지 데모를 구축하는 데 한 시간도 채 걸리지 않아 거의 100만 토큰을 소비했다고 보고했습니다. 에이전트가 백그라운드에서 자율적으로 코드 검토 및 반복 작업을 수행하도록 허용하면 일일 사용량이 수억 토큰에 쉽게 이를 수 있습니다. 캐싱 가격 경쟁이 치열해진 것도 알리바바의 가격 인하를 촉발한 직접적인 요인 중 하나입니다. 이전에는 DeepSeek V4-Pro가 매우 낮은 캐시 적중률로 대량 개발자를 유치했습니다. 5월 말 영구 가격 인하를 발표한 후, DeepSeek V4-Pro의 캐시 적중 비용은 백만 토큰당 0.003625달러(약 0.025위안)로 인하되었으며, 이는 표준 입력 가격 대비 99.17%의 직접적인 비용 절감에 해당합니다. Reasonix와 같은 전용 도구를 사용하는 대량 개발자는 단일 세션의 캐시 적중률을 최대 99%까지 끌어올려 장시간 세션 AI 에이전트의 실행 비용을 거의 0에 가깝게 만들었습니다. 경쟁 압력 대면 Qwen3.7-Max는 설정이 필요 없는 암묵적 캐싱 모드를 출시했을 뿐만 아니라 `cache_control` 플래그를 수동으로 선언해야 하는 명시적 캐싱 모드도 유지했습니다. 자동 캐싱과 비교했을 때 명시적 캐싱은 적중률이 높고 적중 비용은 표준 입력 단위 가격의 10% 수준으로 낮습니다(10% 할인). 그러나 최초 캐시 생성 시 125%의 추가 비용이 발생하며, 캐시 블록의 수명은 5분으로 제한됩니다(적중이 발생할 때마다 수명이 재설정될 수 있음).

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트