Thuế tiếng Trung của Claude: Yêu cầu cùng một nội dung tốn nhiều hơn 65% token so với tiếng Anh, trong khi OpenAI chỉ tốn 15%.

Bài viết này được dịch máy

Xem bản gốc

Theo AIMPACT, vào ngày 29 tháng 4 (UTC+8), dựa trên sự giám sát của Beating, nhà nghiên cứu AI Aran Komatsuzaki đã dịch bài báo có tiếng"Bài học cay đắng" của Rich Sutton sang chín ngôn ngữ và đưa nó vào các bộ phân tích từ vựng của sáu mô hình AI: OpenAI, Gemini , Qwen, DeepSeek, Kimi và Claude. Sử dụng số lượng từ vựng của văn bản tiếng Anh gốc trên OpenAI làm cơ sở, các nhà nghiên cứu đã so sánh mức tiêu thụ từ vựng cho mỗi ngôn ngữ với mỗi mô hình. Kết quả: Với cùng một nội dung, việc truy vấn Claude bằng tiếng Trung Quốc dẫn đến mức tiêu thụ từ vựng gấp 1,65 lần so với mức cơ sở; sử dụng OpenAI, con số này chỉ gấp 1,15 lần. Tiếng Hindi cho thấy sự gia tăng thậm chí còn ấn tượng hơn trên Claude, vượt quá mức cơ sở gấp ba lần. Kimi xếp cuối cùng trong số sáu mô hình trong phép so sánh. Lưu ý rằng việc dịch thuật làm thay đổi độ dài văn bản, vì vậy việc so sánh với tiếng Anh không hoàn toàn chính xác. Điều thuyết phục hơn nữa là hiệu suất của cùng một văn bản tiếng Trung trên các mô hình khác nhau (sử dụng cùng một bộ dữ liệu chuẩn): Kimi chỉ mất 0,81 lần thời gian (ít hơn tiếng Anh), Qwen 0,85 lần và Claude 1,65 lần. Văn bản hoàn toàn giống nhau; sự khác biệt hoàn toàn nằm ở hiệu quả của công cụ phân tách từ. Việc mô hình tiếng Trung xử lý tiếng Trung hiệu quả hơn tiếng Anh cho thấy vấn đề không nằm ở bản thân tiếng Trung, mà ở việc công cụ phân tách từ đã được tối ưu hóa cho ngôn ngữ đó hay chưa. Đối với người dùng, nhiều token hơn trực tiếp làm tăng chi phí API, tăng thời gian chờ trước khi mô hình phản hồi và làm cạn kiệt cửa sổ ngữ cảnh nhanh hơn. Hiệu quả của một công cụ phân tách từ phụ thuộc vào chiếm tỷ lệ của mỗi ngôn ngữ trong dữ liệu huấn luyện: nhiều dữ liệu tiếng Anh hơn cho phép nén từ tiếng Anh hiệu quả; ít dữ liệu không phải tiếng Anh hơn dẫn đến việc phân tách rất rời rạc. Kết luận của Aran: ai có thị trường lớn nhất sẽ tiết kiệm được nhiều token hơn. (Nguồn: ME)

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan