據動察 Beating 監測,阿里 Qwen 團隊宣佈在阿里雲百鍊平臺為旗下旗艦模型 Qwen3.7-Max 默認開啟自動隱式緩存。開發者無需修改代碼或額外指定參數,即可直接享用緩存降本。 在全新的計費機制下,系統會自動識別並提取請求中的重複上下文前綴。一旦發生緩存命中,命中部分的輸入 token 費用僅按原單價的 20% 收取,直接免去八成輸入成本。 隱式緩存直接針對長文本與 Agent 智能體場景下的鉅額開銷。擁有 100 萬 tokens 長上下文窗口的 Qwen3.7-Max 在運行自主編碼等高階任務時,需要高頻、重複讀取龐大的代碼庫或知識文檔。一名開發者測試 Qwen3.7 後反饋,僅花不到一小時構建坦克大戰網頁 demo,就消耗了接近 100 萬 tokens。如果放手讓智能體在後臺自主執行代碼審查與循環迭代,單日用量能輕鬆衝上數億 tokens。 同行在緩存定價上的內卷,是促成阿里降價的另一個直接誘因。此前,DeepSeek V4-Pro 憑藉極低的緩存命中價格吸引了大量開發者。在五月底宣佈轉為永久降價後,DeepSeek V4-Pro 的緩存命中計費被壓到了每百萬 tokens 僅 0.003625 美元(約合人民幣 0.025 元),相當於在標準輸入價格基礎上直接免去 99.17% 的成本。大量開發者配合 Reasonix 等專屬工具,將單次會話的緩存命中率最高推至 99% 這一極限,使得長會話智能體的運行賬單幾近為零。 面對競爭壓力,Qwen3.7-Max 不僅上線了無需任何配置的隱式緩存,還保留了需要手動聲明 cache_control 標識的顯式緩存模式。相比於自動緩存,顯式緩存的命中確定性更高,命中費用低至標準輸入單價的 10%(一折),但首次創建緩存時需支付 125% 的溢價,且緩存塊僅有 5 分鐘的生命週期(每次發生命中可重新計時)。
阿里Qwen3.7-Max上線自動隱式緩存,最高減免80%輸入成本
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享



