阿里Qwen3.7-Max上線自動隱式緩存，最高減免80%輸入成本

據動察 Beating 監測，阿里 Qwen 團隊宣佈在阿里雲百鍊平臺為旗下旗艦模型 Qwen3.7-Max 默認開啟自動隱式緩存。開發者無需修改代碼或額外指定參數，即可直接享用緩存降本。在全新的計費機制下，系統會自動識別並提取請求中的重複上下文前綴。一旦發生緩存命中，命中部分的輸入 token 費用僅按原單價的 20% 收取，直接免去八成輸入成本。隱式緩存直接針對長文本與 Agent 智能體場景下的鉅額開銷。擁有 100 萬 tokens 長上下文窗口的 Qwen3.7-Max 在運行自主編碼等高階任務時，需要高頻、重複讀取龐大的代碼庫或知識文檔。一名開發者測試 Qwen3.7 後反饋，僅花不到一小時構建坦克大戰網頁 demo，就消耗了接近 100 萬 tokens。如果放手讓智能體在後臺自主執行代碼審查與循環迭代，單日用量能輕鬆衝上數億 tokens。同行在緩存定價上的內卷，是促成阿里降價的另一個直接誘因。此前，DeepSeek V4-Pro 憑藉極低的緩存命中價格吸引了大量開發者。在五月底宣佈轉為永久降價後，DeepSeek V4-Pro 的緩存命中計費被壓到了每百萬 tokens 僅 0.003625 美元（約合人民幣 0.025 元），相當於在標準輸入價格基礎上直接免去 99.17% 的成本。大量開發者配合 Reasonix 等專屬工具，將單次會話的緩存命中率最高推至 99% 這一極限，使得長會話智能體的運行賬單幾近為零。面對競爭壓力，Qwen3.7-Max 不僅上線了無需任何配置的隱式緩存，還保留了需要手動聲明 cache_control 標識的顯式緩存模式。相比於自動緩存，顯式緩存的命中確定性更高，命中費用低至標準輸入單價的 10%（一折），但首次創建緩存時需支付 125% 的溢價，且緩存塊僅有 5 分鐘的生命週期（每次發生命中可重新計時）。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論