Thư số 113: Cửa sổ ngữ cảnh AI là gì?

Bài viết này được dịch máy
Xem bản gốc

Trong vài tháng qua, tôi đã viết về AI, và cụ thể hơn là cách thức hoạt động của LLM (Learning Learning Module). Phản hồi rất tích cực, và một vài bạn đã viết thư hỏi thêm chi tiết. Một chủ đề thường xuyên được đề cập là về Cửa sổ ngữ cảnh (Context Windows): chúng là gì, hoạt động như thế nào, ETC

Bạn thấy những con số được nhắc đến ở khắp mọi nơi. Cửa sổ ngữ cảnh 100.000 Token , 1 triệu token, 10 triệu token. Các con số cứ tăng lên, chiến dịch marketing ngày càng rầm rộ, và hầu hết mọi người không hiểu rõ ý nghĩa thực sự của chúng là gì.

Vậy nên hôm nay, chúng ta sẽ khắc phục điều đó.

Đến cuối bức thư này, bạn sẽ biết cửa sổ ngữ cảnh là gì, tại sao số lớn hơn không phải lúc nào cũng đồng nghĩa với mô hình tốt hơn, và cách suy nghĩ về tất cả những điều đó vào lần tới khi bạn chọn AI để sử dụng. Tôi cũng sẽ chia sẻ một số mẹo và thủ thuật để tối ưu hóa cửa sổ ngữ cảnh của bạn bất kể bạn đang sử dụng mô hình nào.

Phiên bản đơn giản

Cửa sổ ngữ cảnh là bộ nhớ làm việc của mô hình.

Mọi thứ mà mô hình cần để thực hiện công việc của nó trong một yêu cầu duy nhất đều phải nằm gọn trong đó. Điều này bao gồm lời nhắc của bạn, hướng dẫn hệ thống, bất kỳ tài liệu hoặc hình ảnh nào bạn đã tải lên, lịch sử cuộc trò chuyện từ trước đó, các công cụ mà mô hình có quyền truy cập và phản hồi mà nó sắp tạo ra.

Tất cả đều dùng chung một ngân sách, và ngân sách này được đo bằng token. Tôi đã đề cập đến token trong Thư 108, nhưng để nhắc lại, một Token xấp xỉ 3/4 từ. Vì vậy, một cửa sổ ngữ cảnh 200.000 Token chứa khoảng 150.000 từ cùng một lúc. Một triệu token tương đương khoảng 750.000 từ, để dễ hình dung, đó là độ dài của một cuốn tiểu thuyết khá dài.

Làm thế nào chúng tôi đạt được từ 4.000 token lên 10 triệu token?

Hãy cùng nhìn nhận xem mọi thứ đã phát triển nhanh chóng như thế nào trong vài năm qua.

Khi ChatGPT ra mắt vào cuối năm 2022, nó sử dụng mô hình GPT-3.5 và có cửa sổ giới hạn 4.000 Token . Bạn không thể dán một bài viết dài vào mà không gặp phải giới hạn này.

Đầu năm 2023, chúng ta đã có các mô hình 8k và 16k, và đến cuối năm 2023, OpenAI đã ra mắt GPT-4 Turbo với 128k. Ngay sau đó, Anthropic đã đẩy Claude lên 200k và rồi Google đã tạo nên một cú đột phá với Gemini 1.5 Pro và 1 triệu token vào đầu năm 2024.

Vào tháng 3 năm nay, Anthropic đã cho phép người dùng mua Claude Opus 4.6 với số lượng 1 triệu token mà không tính phí phụ thu, và một tháng sau đó họ tiếp tục phát hành Opus 4.7, vẫn giữ nguyên mức giá 1 triệu, và điều này về cơ bản đã trở thành tiêu chuẩn chung.

Meta's Llama 4 Scout tuyên bố đạt 10 triệu lượt hiển thị, điều này có vẻ Bit quá đối với tôi vì chất lượng hiển thị giảm đáng kể khi cửa sổ ngữ cảnh mở rộng (sẽ có thêm thông tin về điều này sau).

Nhìn chung, từ khi ChatGPT ra mắt đến nay, số lượng người dùng đã tăng từ 250 đến 2500 lần.

Việc xây dựng các cửa sổ ngữ cảnh lớn hơn sẽ tốn kém hơn. Các mô hình Transformer (kiến trúc mà các mô hình LLM được xây dựng dựa trên) sử dụng một thứ gọi là tự chú ý, trong đó mỗi Token chú ý đến mọi Token khác trong chuỗi. Việc tăng gấp đôi cửa sổ ngữ cảnh sẽ làm tăng gấp bốn lần lượng tính toán, vì vậy một mô hình 1 triệu Token không chỉ tốn gấp năm lần lượng tính toán so với mô hình 200k token, mà thực tế là gấp 25 lần.

Hầu hết những tiến bộ gần đây đều đến từ kỹ thuật khéo léo trong việc xử lý cơ chế hoạt động của sự chú ý, bộ nhớ đệm phản hồi và quản lý bộ nhớ hiệu quả.

Liệu lớn hơn luôn tốt hơn?

Tôi không phải là chuyên gia về chủ đề này nói chung (mặc dù nghe nói là không), nhưng khi nói đến cửa sổ ngữ cảnh AI, lớn hơn không phải lúc nào cũng tốt hơn.

Kích thước cửa sổ ngữ cảnh là kích thước tối đa mà mô hình có thể chấp nhận về mặt kỹ thuật, nhưng nó không nhất thiết là lượng mà mô hình có thể sử dụng một cách hiệu quả/tối ưu.

Một số nhà nghiên cứu tại Chroma đã công bố một nghiên cứu vào năm ngoái có tên là Context Rot . Họ đã thử nghiệm 18 mô hình tiên tiến khác nhau, bao gồm Claude, GPT và Gemini, trên các nhiệm vụ truy xuất đơn giản với độ dài đầu vào khác nhau. Bản thân nhiệm vụ vẫn giữ nguyên, chỉ có độ dài của đầu vào thay đổi.

Mọi mô hình đều hoạt động kém hiệu quả hơn khi dữ liệu đầu vào dài hơn. Một số mô hình đạt điểm gần 100% với dữ liệu đầu vào Short lại đạt dưới 50% khi thực hiện cùng nhiệm vụ đó với dữ liệu đầu vào dài hơn.

Cộng đồng đã sử dụng tên của nghiên cứu này và cụm từ “sự mục nát ngữ cảnh” nhanh chóng trở thành một phần của ngôn ngữ chuyên ngành AI. Ý chính rất đơn giản: khi bạn nhồi nhét càng nhiều thông tin vào một câu hỏi gợi ý, mô hình càng trở nên kém tin cậy hơn (ngay cả khi nội dung bổ sung đó không thực sự quan trọng và không bổ sung thêm ngữ cảnh hữu ích).

Có một vài vấn đề tiềm ẩn đang gây ra hiện tượng "lỗi ngữ cảnh" này:

  • Các mô hình thường chú ý nhiều hơn đến phần đầu và cuối của một câu hỏi hơn là phần giữa. Thông tin quan trọng bị chôn vùi ở giữa một đoạn văn dài có thể bị bỏ qua. Các nhà nghiên cứu gọi đây là "mất mát ở giữa" ( các nhà khoa học không nổi tiếng về sự độc đáo trong cách đặt tên, ví dụ: Kính viễn vọng rất lớn ở Chile).

  • Khi nội dung trong câu hỏi trông có vẻ tương tự nhưng không hoàn toàn chính xác, mô hình sẽ bị nhầm lẫn. Chỉ cần một yếu tố gây nhiễu nhỏ cũng có thể khiến mô hình hoạt động sai.

  • Vị trí của thông tin trong câu hỏi cũng ảnh hưởng đến hiệu quả sử dụng thông tin đó của mô hình. Cùng một thông tin ở vị trí 1.000 sẽ cho kết quả khác so với cùng một thông tin ở vị trí 50.000.

  • Khi câu hỏi và câu trả lời sử dụng những từ ngữ khác nhau cho cùng một ý tưởng, mô hình sẽ gặp nhiều khó khăn hơn khi ngữ cảnh trở nên phức tạp hơn.

Tóm lại, con số hiển thị trong cửa sổ ngữ cảnh chỉ là mức tối đa, không phải mục tiêu, và bạn nên xóa nội dung cửa sổ ngữ cảnh hiện tại và bắt đầu lại từ đầu trước khi gần đạt đến mức tối đa đó đối với hầu hết mọi tác vụ sử dụng AI.

Một lý do khác khiến "lớn hơn không phải lúc nào cũng tốt hơn" là chi phí/mức sử dụng. Cửa sổ ngữ cảnh càng lớn, bạn càng gửi đi gửi lại nhiều token và bạn sẽ phải trả tiền cho điều đó thông qua API hoặc sử dụng hết giới hạn sử dụng hàng tháng của gói đăng ký. Giữ cho cửa sổ ngữ cảnh nhỏ và dễ quản lý không chỉ tốt hơn về mặt đảm bảo chất lượng đầu ra mà còn tiết kiệm chi phí.

Điều này có nghĩa gì đối với những việc bạn đang thực sự làm?

Nếu bạn sử dụng AI cho công việc liên quan đến nhiều thông tin cùng một lúc, cửa sổ ngữ cảnh rất quan trọng; tuy nhiên, hầu hết mọi người thực tế không làm như vậy.

Hầu hết các tài liệu đều nhỏ hơn mọi người tưởng. Ví dụ, một tệp PDF 50 trang có dung lượng khoảng 25.000 token. Bạn có thể dán một tài liệu như vậy vào và có một cuộc hội thoại dài với AI mà vẫn chưa đến 100.000 token.

Tuy nhiên, nếu bạn đang xây dựng và sử dụng các trợ lý ảo của riêng mình, điều này trở nên vô cùng quan trọng. Quy trình làm việc của trợ lý ảo tiêu tốn rất nhiều token. Thật sự là rất nhanh . Trợ lý ảo đọc một trang, quyết định phải làm gì, gọi một công cụ, đọc kết quả, rồi lặp lại. Mỗi bước đều bổ sung thêm ngữ cảnh. Khi bạn trò chuyện với trợ lý ảo, nó không chỉ đọc toàn bộ lịch sử trò chuyện của bạn để nắm bắt ngữ cảnh mỗi lần, mà còn tải các kỹ năng, công cụ và Bits bộ nhớ khác để hoạt động hiệu quả.

Tôi có thể đạt được lượng truy cập 200k trong cửa sổ ngữ cảnh chỉ trong vòng một hoặc hai giờ trò chuyện qua lại.

Việc lập trình chỉ làm tăng thêm điều này. Nếu bạn lập trình, bạn có thể tiêu tốn token cực kỳ nhanh chóng khi có sự tham gia của các tác nhân phụ và công việc song song.

Đây là một trong những lý do tại sao mô hình cục bộ có thể là một lựa chọn rất hấp dẫn cho một số công việc nhất định. Không có phí trên mỗi token hoặc giới hạn sử dụng khi bạn sử dụng mô hình cục bộ. Tôi đã đề cập đến mô hình cục bộ trong Thư 107 nếu bạn muốn tìm hiểu thêm.

Cách quản lý cửa sổ ngữ cảnh hiệu quả

Đây là phần quan trọng nhất trong bức thư mà tôi muốn bạn ghi nhớ. Dưới đây là những chiến thuật thực tiễn mà tôi sử dụng, cùng với hướng dẫn từ một số chuyên gia thực sự xây dựng các mô hình này.

Góc nhìn tổng quát hơn ở đây là điều mà nhóm kỹ thuật của Anthropic gọi là kỹ thuật ngữ cảnh . Họ đã công bố một bài phân tích chuyên sâu về vấn đề này vào tháng 9 năm 2025 và bài viết đó rất đáng đọc nếu bạn muốn tìm hiểu sâu hơn những gì bài viết này đề cập. Câu tóm tắt của họ là câu hay nhất mà tôi từng thấy về chủ đề này:

“Kỹ thuật tạo ngữ cảnh tốt nghĩa là tìm ra tập hợp nhỏ nhất có thể các token tín hiệu cao nhằm tối đa hóa khả năng đạt được kết quả mong muốn.”

Cách tiếp cận đó thực sự đã thay đổi cách tôi sử dụng AI hàng ngày. Thay vì hỏi tôi nên đưa gì vào, giờ đây tôi hỏi tôi có thể bỏ gì đi (một lần nữa, "càng ít càng tốt" lại đúng).

Dưới đây là các chiến thuật được rút ra từ đó.

1. Mỗi cuộc trò chuyện chỉ nên giao một nhiệm vụ và nên bắt đầu lại từ đầu thường xuyên.

Đây là thói quen hữu ích nhất mà tôi đã học được. Nếu bạn đang nghiên cứu một chủ đề rồi chuyển sang chủ đề khác, hãy bắt đầu một cuộc trò chuyện mới. Nếu bạn hoàn thành bản thảo và muốn chỉnh sửa thêm, hãy bắt đầu một cuộc trò chuyện mới. Nếu bạn dành một giờ để gỡ lỗi một vấn đề và vấn đề tiếp theo không liên quan, hãy bắt đầu một cuộc trò chuyện mới.

Teresa Torres, người viết về công việc phát triển sản phẩm AI trên Product Talk, đã diễn đạt rất hay : mỗi cuộc trò chuyện dài đều tích tụ thêm nhiễu loạn, và nhiễu loạn đó đang chủ động làm cho phản hồi tiếp theo trở nên tồi tệ hơn.

2. Sử dụng kỹ thuật chuyển giao

Khi cần tiếp tục nội dung, hãy yêu cầu người mẫu viết một bản tóm tắt ngắn gọn những điểm quan trọng trước khi bạn bắt đầu lại. Sao chép và dán nó vào cuộc trò chuyện mới làm tin nhắn mở đầu.

Về cơ bản, đây là những gì Claude Code tự động thực hiện khi đạt đến giới hạn ngữ cảnh. Anthropic gọi đó là nén dữ liệu , và họ mô tả nó trong bài viết về kỹ thuật ngữ cảnh như là đòn bẩy đầu tiên bạn nên sử dụng. Họ bảo toàn các quyết định kiến ​​trúc, các lỗi chưa được giải quyết và các tệp quan trọng trong khi loại bỏ các đầu ra công cụ dư thừa và các thông báo cũ. Bạn có thể thực hiện điều tương tự theo cách thủ công với bất kỳ công cụ AI nào.

3. Quan sát đường 50%

Arthur Clune, người làm việc trong lĩnh vực sản phẩm AI, đã đưa ra một nhận xét rất sắc bén trong một bài đăng gần đây. Độ chính xác của LLM bắt đầu giảm đáng kể khi cửa sổ ngữ cảnh đầy khoảng 50%. Cơ chế nén của Anthropic tự động kích hoạt ở mức 95%, điều đó có nghĩa là đến lúc bạn nhìn thấy thông báo, bạn đã hoạt động ở chế độ suy giảm hiệu suất được một thời gian rồi.

Đó là lý do tại sao bạn không nên chỉ chờ Claude Code tự động nén, vì điều đó chỉ xảy ra khi bạn gần đạt đến giới hạn. Bạn có thể tự chạy nó bằng cách gõ /compact bất cứ khi nào bạn muốn.

4. Hãy chọn lọc thông tin trước khi làm việc với AI.

Việc chỉ chọn lọc 5 tài liệu liên quan sẽ mang lại kết quả tốt hơn là nhồi nhét 50 tài liệu vào và hy vọng AI có thể "tự hiểu". Mô hình không phải lúc nào cũng biết điều gì quan trọng (và chắc chắn nó không biết điều gì quan trọng đối với riêng bạn). Vì vậy, hãy tận dụng lợi thế của con người khi còn có thể.

5. Đặt những nội dung quan trọng ở đầu hoặc cuối.

Nghiên cứu về hiện tượng thông tin bị chìm ở giữa đã được chứng minh là đúng qua nhiều thế hệ mô hình. Thông tin ở đầu và cuối câu hỏi thường thu hút sự chú ý hơn thông tin bị chôn vùi ở giữa. Nếu bạn có một tài liệu dài và một đoạn văn thực sự quan trọng, hãy nhắc lại đoạn văn đó ở cuối câu hỏi, ngay cả khi nó đã xuất hiện vài lần trong tài liệu.

6. Sử dụng Dự án hoặc GPT tùy chỉnh để duy trì ngữ cảnh

Claude có các Dự án. ChatGPT có các GPT Tùy chỉnh. Cả hai đều cho phép bạn thiết lập lời nhắc hệ thống cố định và tải lên các tệp tham chiếu mà không tính vào ngữ cảnh của từng cuộc trò chuyện riêng lẻ. Nếu bạn có Use Case lặp đi lặp lại, hãy đặt hướng dẫn và tài liệu tham khảo vào một Dự án hoặc GPT Tùy chỉnh thay vì lặp lại chúng trong mỗi cuộc trò chuyện.

7. Sử dụng RAG cho các cơ sở tri thức lớn.

RAG là viết tắt của Retrieval Augmented Generation (Tạo thông tin được tăng cường bằng cách truy xuất). Thay vì đưa hàng nghìn tài liệu vào lời nhắc, bạn lập chỉ mục chúng trong cơ sở dữ liệu vector, và chỉ lấy ra những phần thông tin liên quan nhất cho mỗi câu hỏi. Đây chính là cách mà các công cụ như Perplexity, NotebookLM và tính năng nghiên cứu chuyên sâu của ChatGPT hoạt động. Tôi sẽ đề cập chi tiết hơn về RAG trong một bài viết khác, nó xứng đáng được dành riêng một bài.

8. Chọn mô hình phù hợp với công việc

Gemini 3.1 Pro có giá rẻ cho việc xử lý tài liệu dung lượng lớn. Claude Opus 4.7 mạnh nhất trong việc suy luận dựa trên ngữ cảnh, còn Sonnet 4.6 là lựa chọn tầm trung tuyệt vời nếu chi phí là yếu tố quan trọng. GPT-5.5 là sản phẩm tiên tiến nhất hiện nay của OpenAI và có giá nằm giữa hai công cụ trên. Nếu bạn đang xử lý một tệp PDF 500 trang, Gemini có lẽ là công cụ phù hợp. Nếu bạn đang giải quyết một vấn đề phức tạp nhiều bước, Opus hoặc GPT có lẽ là công cụ tốt hơn.

9. Đối với các nhân viên, hãy tách biệt nhiệm vụ đọc và nhiệm vụ suy nghĩ.

Nếu bạn đang xây dựng các agent (hoặc sử dụng Claude Code, Cowork, Cursor, v.v.), nghiên cứu của Anthropic về các agent chạy dài hạn là vô cùng quý giá. Điểm mấu chốt là quá trình khám phá làm tiêu hao ngữ cảnh rất nhanh. Vì vậy, họ khuyến nghị sử dụng các subagent, được tạo ra cho các tác vụ đọc dữ liệu chuyên sâu cụ thể (tìm kiếm trên nhiều tệp, xem xét mã nguồn để tìm lỗi bảo mật) và chỉ trả về bản tóm tắt. Ngữ cảnh của agent chính vẫn được giữ nguyên.

Bạn cũng có thể áp dụng điều này theo cách thủ công. Nếu bạn muốn Claude nghiên cứu sâu một vấn đề nào đó rồi hành động dựa trên kết quả, hãy thực hiện nghiên cứu trong một cuộc trò chuyện, tóm tắt ngắn gọn và sử dụng bản tóm tắt đó làm điểm khởi đầu trong một cuộc trò chuyện mới để bắt đầu công việc hành động.

10. Đừng dán những hình ảnh bạn không cần.

Ảnh chụp màn hình khá tốn Token . Một ảnh chụp màn hình độ phân giải cao có thể dùng từ 1.000 đến 2.000 token. Nếu bạn tải lên 20 ảnh chụp màn hình vào một cuộc trò chuyện dài, chỉ riêng chi phí cho ảnh đã là từ 20.000 đến 40.000 token. Tôi rất thích chụp ảnh màn hình và thêm nội dung vào cuộc trò chuyện, nhưng đôi khi việc này có thể Bit quá đà, và đây là lời nhắc nhở tốt để không lạm dụng chúng.

Lời kết

Hy vọng điều này đã giúp bạn hiểu rõ Bit về cửa sổ ngữ cảnh là gì và cách chúng hoạt động. Hầu hết mọi người chỉ thấy những tiêu đề khoe khoang về cửa sổ ngữ cảnh lớn hơn và nghĩ rằng lớn hơn thì luôn tốt hơn, nhưng thực tế là tôi hiếm khi sử dụng quá 200.000 token cho bất kỳ tác vụ nào của mình hiện nay. Thỉnh thoảng tôi sẽ đạt đến 400-500.000 token trước khi nén lại, nhưng không thường xuyên như vậy.

Có lẽ/hy vọng một ngày nào đó vấn đề này sẽ được giải quyết và chúng ta có thể sử dụng 1 triệu hoặc thậm chí 10 triệu cửa sổ ngữ cảnh Token một cách đáng tin cậy mà không lo bị mất dữ liệu trong mớ hỗn độn đó.

Tuy nhiên, cho đến lúc đó, hãy chú ý đến ngữ cảnh. Thường xuyên bắt đầu các cuộc trò chuyện mới khi bạn có nhiệm vụ mới, chuyển giao công việc từ phiên này sang phiên khác và nhắc lại những điểm quan trọng ở đầu và cuối lời nhắc nếu bạn muốn có kết quả tốt hơn.

Cảm ơn các bạn đã luôn theo dõi, và hẹn gặp lại vào tuần sau!


Tuyên bố miễn trừ trách nhiệm: Nội dung trong bản tin này không được coi là lời khuyên đầu tư. Tôi không phải là cố vấn tài chính. Đây chỉ là ý kiến ​​và quan điểm cá nhân của tôi. Bạn nên luôn tham khảo ý kiến ​​của cố vấn tài chính chuyên nghiệp/có giấy phép trước khi giao dịch hoặc đầu tư vào bất kỳ sản phẩm liên quan đến tiền điện tử nào. Một số liên kết được chia sẻ có thể là liên kết giới thiệu.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận