Theo dõi từ Beating, đội ngũ Qwen của Alibaba đã thông báo rằng tính năng bộ nhớ đệm ngầm tự động đã được bật mặc định cho mô hình hàng đầu Qwen3.7-Max trên nền tảng Alibaba Cloud Bailian. Các nhà phát triển có thể trực tiếp hưởng lợi từ việc lưu vào bộ nhớ đệm và giảm chi phí mà không cần sửa đổi mã hoặc chỉ định thêm tham số. Theo cơ chế tính phí mới, hệ thống tự động xác định và rút các tiền tố ngữ cảnh lặp lại trong các yêu cầu. Khi xảy ra trường hợp truy cập thành công vào bộ nhớ đệm, chi phí của các token đầu vào cho phần truy cập đó chỉ bằng 20% giá đơn vị ban đầu, trực tiếp loại bỏ 80% chi phí đầu vào. Bộ nhớ đệm ngầm giải quyết trực tiếp chi phí khổng lồ trong các kịch bản văn bản dài và tác vụ tự động. Qwen3.7-Max, với cửa sổ ngữ cảnh dài 1 triệu token, cần thường xuyên và lặp đi lặp lại việc đọc các cơ sở mã lớn hoặc tài liệu kiến thức khi thực hiện nhiệm vụ cấp cao như lập trình tự động. Một nhà phát triển đã báo cáo sau khi thử nghiệm Qwen3.7 rằng nó đã tiêu thụ gần 1 triệu token trong chưa đầy một giờ để xây dựng bản demo trang web trận chiến xe tăng. Nếu tác nhân được phép tự động thực hiện đánh giá mã và các chu kỳ lặp lại trong nền, mức sử dụng hàng ngày có thể dễ dàng đạt đến hàng trăm triệu token. Sự cạnh tranh khốc liệt giữa các đối thủ về giá dịch vụ bộ nhớ đệm là một yếu tố trực tiếp khác thúc đẩy việc giảm giá của Alibaba. Trước đây, DeepSeek V4-Pro đã thu hút lượng lớn nhà phát triển nhờ giá truy cập bộ nhớ đệm cực thấp. Sau khi thông báo giảm giá vĩnh viễn vào cuối tháng 5, phí truy cập bộ nhớ đệm của DeepSeek V4-Pro đã giảm xuống chỉ còn 0,003625 USD/triệu token (khoảng 0,025 RMB), tương đương với mức giảm chi phí trực tiếp 99,17% so với giá đầu vào tiêu chuẩn. Lượng lớn nhà phát triển, sử dụng các công cụ chuyên dụng như Reasonix, đã đẩy tỷ lệ truy cập bộ nhớ đệm cho lần phiên lên tối đa 99%, khiến chi phí thời gian chạy của các tác nhân AI phiên dài gần như bằng không. Đối diện áp lực cạnh tranh, Qwen3.7-Max không chỉ ra mắt chế độ bộ nhớ đệm ngầm định không cần cấu hình mà còn giữ lại chế độ bộ nhớ đệm tường minh yêu cầu khai báo thủ công cờ `cache_control`. So với bộ nhớ đệm tự động, bộ nhớ đệm tường minh có độ chắc chắn truy cập cao hơn và chi phí truy cập thấp hơn, chỉ bằng 10% giá đơn vị đầu vào tiêu chuẩn (giảm giá 10%). Tuy nhiên, phải trả phí cao hơn 125% khi tạo bộ nhớ đệm lần đầu tiên, và khối bộ nhớ đệm chỉ có thời hạn sử dụng 5 phút (có thể được thiết lập lại lần khi có truy cập thành công).
Alibaba Qwen 3.7-Max ra mắt tính năng bộ nhớ đệm ngầm tự động, giúp giảm chi phí nhập liệu lên đến 80%.
Bài viết này được dịch máy
Xem bản gốc
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan


