GPT 5.4 tính phí 80 USD cho một tin nhắn "hi" duy nhất; OpenAI nên xem xét bài báo mới của Google.

Bài viết này được dịch máy
Xem bản gốc

Trong vài năm qua, cơ sở hạ tầng hiệu quả và hoàn thiện đã làm giảm chi phí của các token AI, khiến mọi người đều chạy đua để giảm giá.

Tuy nhiên, với sự bùng nổ gần đây của các ứng dụng xuất sắc như OpenClaw sở hữu khả năng tác nhân mạnh mẽ, chi phí API (Giao diện lập trình ứng dụng) đã đi ngược lại xu hướng và tăng vọt. Bên cạnh lượng lớn dữ liệu ngữ cảnh được tạo ra bởi chính hoạt động của tác nhân, còn có một con quái vật ngốn tiền ẩn giấu đằng sau tất cả: "Chuỗi suy nghĩ" (Chuỗi-of-Thought - CoT) ngày càng dài và thậm chí vượt khỏi tầm kiểm soát.

Kể từ khi mô hình o1 của OpenAI cách mạng hóa khả năng tính toán trong quá trình kiểm thử, ý tưởng rằng suy nghĩ lâu hơn sẽ dẫn đến hiệu suất tốt hơn đã trở thành một giải pháp toàn diện cho trí tuệ nhân tạo tổng quát. Ngày nay, khi chúng ta gọi các mô hình suy luận hàng đầu, thời gian suy nghĩ nền của chúng thực sự đã tăng trưởng theo cấp số nhân, thường tạo ra hàng nghìn từ độc thoại nội tâm. OpenAI tiết lộ trong cuộc họp báo cáo thu nhập tháng 1 năm 2025 rằng chi phí token trung bình cho lần yêu cầu của sê-ri o1 cao gấp 2,7 lần so với GPT-4o, và đối với một số nhiệm vụ, bội số này có thể đạt gấp năm lần hoặc thậm chí cao hơn.

Và xu hướng này không có dấu hiệu dừng lại. Ví dụ, phần mềm GPT 5.4 Pro mới ra mắt, có giá 80 đô la, đã mất 5 phút 18 giây để trả lời lời chào "Hi".

Liệu Chuỗi suy nghĩ dài như vậy có thực sự hữu ích? Khi nào chúng thực sự hữu ích? Làm thế nào chúng ta có thể khiến mô hình suy nghĩ ít hơn nhưng hiệu quả hơn? Câu hỏi này đã làm đau đầu các nhà nghiên cứu kể từ khi O1 ra đời. Nhiều cách giải thích và phương pháp đã xuất hiện, nhưng chưa có giải pháp nào giải quyết triệt để vấn đề lựa chọn các token suy nghĩ hiệu quả. Cho đến nay, phương pháp chủ đạo trong ngành vẫn là định tuyến, trong đó mô hình tự quyết định xem việc suy nghĩ có cần thiết hay không.

Vào tháng 2 năm 2026, một bài báo của Google có tiêu đề "Nghĩ sâu, chứ không chỉ nghĩ dài" đã đưa ra một phương pháp cơ bản hơn.

Nói một cách đơn giản, để xem liệu tư duy của một mô hình có hữu ích hay không, bạn cần xem xét mức độ sâu sắc của tư duy đó.

01. Nhiều hơn không nhất thiết là tốt hơn.

Thực tế, sự ra đời của Chuỗi Tư duy (Chain-of-Thought - CoT) còn có trước cả Lý thuyết Mô hình Tổng quát (GPT). Năm 2022, hai bài báo được các nhà nghiên cứu của Google công bố gần như đồng thời đã thiết lập CoT như là địa vị lý luận. Bài báo đầu tiên, "Chain-of-Thought Prompting" (Gợi ý bằng Chuỗi Tư duy), đã chứng minh rằng bằng cách thêm Chuỗi suy luận vào các ví dụ ít dữ liệu, các mô hình lớn có thể đạt được những cải tiến đáng kể trong nhiệm vụ như tính toán, suy luận thông thường và suy luận ký hiệu. Trong một số thiết lập nhất định, độ chính xác có thể tăng từ gần bằng 0 lên hơn 60%. Bài báo thứ hai, "Zero-shot CoT" (CoT không dữ liệu), đã đề xuất phương pháp có tiếng"Hãy suy nghĩ từng bước một". Việc thêm nó sau "Gợi ý" sẽ kích hoạt khả năng suy luận nhiều bước của mô hình.

Hai phát hiện này nhanh chóng trở thành sự đồng thuận trong ngành, và hầu hết các ứng dụng yêu cầu suy luận phức tạp đều bắt đầu cho phép CoT theo mặc định. Các nhà nghiên cứu đương nhiên cho rằng rằng vì CoT hiệu quả, nên CoT dài hơn sẽ còn hiệu quả hơn nữa.

Từ năm 2023 đến nửa đầu năm 2024, lượng lớn công việc tập trung vào việc làm thế nào để các mô hình có thể tạo ra Chuỗi suy luận dài hơn và tinh tế hơn. Một số phương pháp tạo ra các phân tích chi tiết hơn thông qua kỹ thuật tạo tín hiệu, một số khác thưởng cho các luồng CoT dài hơn thông qua học tăng cường, và một số khác nữa chắt lọc Chuỗi suy luận dài được tạo ra bởi các mô hình lớn thành các mô hình nhỏ hơn trong quá trình huấn luyện. Việc theo đuổi độ dài này đạt đến đỉnh điểm với sự ra mắt của O1, dẫn đến cuộc cách mạng tính toán trong thời gian thử nghiệm, cốt lõi của nó là tạo ra tư duy nội tại dài hơn trong quá trình suy luận.

Vấn đề đã được phát hiện

Nhưng vào mùa hè năm 2024, sáu tháng trước khi O1 ra mắt, các nhà nghiên cứu từ nhiều tổ chức khác nhau bắt đầu đặt câu hỏi về tính xác thực của những ý tưởng này.

Ví dụ, một đội ngũ tại Đại học Stanford, khi phân tích hành vi suy luận của o1 và Claude, nhận thấy rằng đối với các bài toán số học cơ bản đơn giản, các mô hình này thường tạo ra hàng trăm hoặc thậm chí hàng nghìn đoạn văn bản suy luận, nhưng hầu hết trong đó là các bước kiểm chứng lặp đi lặp lại, sự tự nghi ngờ và các nỗ lực tìm kiếm nhiều giải pháp, trong khi con người có thể giải quyết những vấn đề này chỉ với hai hoặc ba phép tính nhẩm.

Khi họ tự tay rút ngắn những suy luận dài dòng này, độ chính xác của câu trả lời không hề giảm; trên thực tế, đôi khi nó tăng nhẹ. Điều này cho thấy mô hình có thể không thực sự cần nhiều suy nghĩ; nó chỉ đơn giản được thúc đẩy bởi các phần thưởng sau quá trình huấn luyện để liên tục tạo ra những ý tưởng mới.

Vào tháng 5 năm 2025, một bài báo có tiêu đề "Khi nhiều hơn lại là ít hơn" đã đưa ra một mô tả chính xác hơn về hiện tượng này. Sử dụng các thí nghiệm có kiểm soát, họ đã xây dựng Chuỗi suy luận có độ dài khác nhau và vẽ đồ thị mối quan hệ giữa độ dài và độ chính xác trên nhiệm vụ có mức độ khó khác nhau. Họ nhận thấy rằng mối quan hệ giữa độ dài của Chuỗi suy luận và độ chính xác của kết quả cuối cùng thực chất là một đường cong hình chữ U sụp đổ.

Việc thêm nhiều bước hơn trong phạm vi không vượt quá đỉnh của U có ích, nhưng vượt quá phạm vi này, độ chính xác bắt đầu giảm dần. Hơn nữa, độ dài tối ưu này thay đổi tùy thuộc vào độ khó nhiệm vụ và khả năng của mô hình. Đối với các bài toán khó hơn, độ dài tối ưu dịch chuyển sang phải; tuy nhiên, đối với các mô hình có khả năng hơn, độ dài tối ưu dịch chuyển sang trái, cho thấy rằng các mô hình mạnh hơn sẽ biết khi nào nên dừng lại tốt hơn.

Các tác giả của bài báo gọi hiện tượng này là "thiên kiến ​​đơn giản". Một khi mô hình đã nắm bắt được bản chất của vấn đề, việc tiếp tục tạo ra thêm nhiều token chỉ làm tăng thêm nhiễu và sự can thiệp. Khi vượt quá một điểm tới hạn nhất định, mô hình sẽ rơi vào vũng lầy gọi là "suy nghĩ quá mức". Trong phạm vi mở rộng nghịch này, các token bổ sung mà bạn mua bằng tiền thật không chỉ không làm tăng trí thông minh mà còn thực sự làm giảm độ chính xác.

Phân tích COT

Vậy, chính xác thì tất cả những đoạn văn siêu dài, thường dài hàng chục nghìn từ, đã biến mất ở đâu?

Có ba mô hình chính trong việc hình thành Chuỗi lập luận dài, và tất cả chúng đều gặp phải vấn đề suy nghĩ quá mức.

Loại đầu tiên là khai triển tuyến tính. Mô hình tiến triển từng bước, tạo ra các kết quả trung gian mới ở mỗi bước, giống như việc phác thảo. Đây là hình thức CoT cổ điển nhất. Vấn đề suy nghĩ quá mức ở đây chủ yếu xuất phát từ việc mô hình thường không biết khi nào nên dừng lại. Nó tiếp tục kiểm tra lại phép tính ngay cả sau khi tìm ra câu trả lời, hoặc liên tục giải cùng một vấn đề bằng ba phương pháp khác nhau.

Cách tiếp cận thứ hai là chu trình phản tư. Sau khi tạo ra câu trả lời ban đầu, mô hình sẽ kích hoạt cơ chế tự đặt câu hỏi, liên tục tạo ra văn bản tự sửa lỗi. Điều này thực sự có giá trị đối với các vấn đề phức tạp, nhưng việc phản tư về các vấn đề đơn giản lại dẫn đến việc suy nghĩ quá mức.

Phương pháp thứ ba là lấy mẫu đa đường dẫn. Để cải thiện tính ổn định, hệ thống tạo ra hàng chục hoặc thậm chí hàng trăm đường dẫn suy luận khác nhau, và cuối cùng chọn câu trả lời nhất quán nhất thông qua bỏ phiếu. Phương pháp này thực sự hiệu quả khi giải quyết các vấn đề đặc biệt phức tạp, nhưng phải trả giá bằng chi phí tăng theo cấp số nhân. Hơn nữa, một phần đáng kể các đường dẫn suy luận ứng cử viên này không đáng tin cậy, và việc không loại bỏ chúng một cách hiệu quả dẫn đến việc suy nghĩ quá mức.

Khi phân tích nửa bên phải của đường cong hình chữ U sụp đổ, các tác giả của cuốn sách *Khi Càng Nhiều Càng Ít* nhận thấy rằng hơn 90% các mẫu có độ chính xác giảm chứa lượng lớn sự xác nhận lặp đi lặp lại và phản ánh không hợp lệ. Điều này có nghĩa là bản chất của việc suy nghĩ quá mức là mong muốn lặp lại. Ngay cả khi mô hình đã biết câu trả lời, cơ chế huấn luyện vẫn thúc đẩy nó liên tục tạo ra các biến thể và xác nhận, và sự dư thừa này chính là thủ phạm làm giảm độ chính xác.

Chỉ khi hiểu rõ ba cơ chế này và các chế độ mất kiểm soát của chúng, chúng ta mới có thể thiết kế các chiến lược kiểm soát mục tiêu.

Một nỗ lực nhằm kiểm soát độ dài

Đến giữa năm 2025, giới học thuật và công nghiệp đã đạt được sự đồng thuận về hiện tượng suy nghĩ quá mức. Câu hỏi bắt đầu chuyển từ "liệu suy nghĩ quá mức có tồn tại hay không" sang "làm thế nào để xác định và kiểm soát nó một cách chính xác".

Cách tiếp cận trực tiếp nhất là đặt ra các giới hạn cứng nhắc. Ví dụ, phương pháp như Token-Budget-Aware LLM Reasoning nói rõ với mô hình rằng "bạn chỉ có bấy nhiêu từ để sử dụng" trong các lời nhắc, buộc nó phải ngắn gọn. Tuy nhiên, cách tiếp cận đơn giản này có một nhược điểm chí mạng: nó không giải quyết được vấn đề khó khăn.

Một phương pháp tốt hơn là cho phép hệ thống tự động xác định thời điểm dừng. Phương pháp được đề xuất trong *REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference* bao gồm việc giám sát các tín hiệu dư thừa trong thời gian thực trong quá trình suy luận. Khi mô hình bắt đầu xác thực lặp đi lặp lại, bị mắc kẹt trong chu kỳ phản xạ, hoặc rơi vào vòng lặp tự nghi ngờ, hệ thống sẽ dừng lại một cách dứt khoát. Chiến lược dừng này có thể giảm mức tiêu thụ token từ 20% đến 55% mà không cần sửa đổi mô hình, đồng thời vẫn duy trì hoặc thậm chí cải thiện độ chính xác.

Một phương pháp khác là định tuyến. Các framework như DynaThink và DAST thực hiện đánh giá nhanh cho mỗi bài toán. Đối với những câu hỏi đơn giản như "2+3 bằng bao nhiêu?", chúng chỉ đơn giản xuất ra câu trả lời; đối với những bài toán phức tạp và khó hơn, chúng khởi tạo một chuỗi suy luận hoàn chỉnh và lấy mẫu đa đường dẫn. Tuy nhiên, hiệu năng thảm hại của GPT 5 sau khi triển khai định tuyến, với những sai sót nghiêm trọng trong việc đánh giá độ khó, cho thấy phương pháp này cũng không hoàn hảo.

Đối với các mô hình tỷ lệ băm dựa trên việc lấy mẫu và bỏ phiếu đa dạng, các nhà nghiên cứu đã phát triển một cơ chế dừng sớm. Cơ chế Tự nhất quán Dừng sớm (ESC) liên tục giám sát quá trình lấy mẫu, và một khi nhiều câu trả lời đã đạt được sự đồng thuận ổn định, không cần thiết phải lãng phí tỷ lệ băm để tạo thêm mẫu. Trên các bộ dữ liệu chuẩn toán học như GSM8K, điều này có thể giảm số lượng mẫu xuống 80%.

Một phương pháp cận triệt để hơn là sửa đổi chính mô hình từ nguồn gốc. Ví dụ, một số nhà nghiên cứu đặt hy vọng vào việc huấn luyện sau; trong bài báo "Hãy xác minh từng bước một", họ hy vọng sẽ giải quyết tất cả các vấn đề bằng Mô hình Phần thưởng Quy trình (PRM). Sau khi mô hình được huấn luyện, nó sẽ cung cấp câu trả lời theo phương pháp giải tối ưu, do đó tránh được rất nhiều mã không cần thiết. Ngoài ra, người ta có thể tinh chỉnh mô hình bằng cách sử dụng một phương pháp được lựa chọn cẩn thận, ngắn gọn nhưng chính xác để làm cho đầu ra của nó gần đúng hơn. Tuy nhiên, việc thiết kế hoặc tinh chỉnh PRM vẫn là một quá trình rất khó kiểm soát.

Mặc dù có nhiều phương pháp, nhưng tất phương pháp đều đối mặt với một vấn đề nan giải chung: không phương pháp nào có tín hiệu đặc biệt đáng tin cậy để xác định "khi nào nên tiếp tục suy nghĩ về những điều có giá trị và khi nào chỉ nên tích tụ những văn bản vô ích".

Các giải pháp hiện tại chủ yếu dựa vào các đặc điểm bề ngoài, chẳng hạn như các mô hình lặp lại, sự thay đổi độ tin cậy, sự hội tụ nhất quán và số liệu thống kê lịch sử. Tất cả những điều này đều là chỉ báo gián tiếp, giống như việc quan sát từ bên ngoài.

Vậy, đâu là chỉ báo quan trọng giúp phân biệt tư duy hiệu quả với sự lặp lại không hiệu quả?

02 Tìm kiếm tư duy hữu ích

Bài báo của Google cho rằng phương pháp trực tiếp nhất để tìm bằng chứng về tư duy hiệu quả là chèn các đầu dò sâu vào kiến ​​trúc Transformer và quan sát xem liệu nó có thực sự đang tư duy khi tạo ra từng từ hay không.

Khi một mô hình lớn tạo ra một token, tín hiệu sẽ được truyền qua hàng chục hoặc thậm chí hàng trăm lớp mạng nơ-ron để xử lý. Các nhà nghiên cứu trong bài báo này đã phát hiện ra rằng mức độ khó khăn mà mô hình gặp phải thay đổi đáng kể tùy thuộc vào token được tạo ra.

Đối với các thuật ngữ ngữ pháp đơn giản, các cụm từ sáo rỗng, hoặc các khái niệm thông thường mà mô hình đã quen thuộc, chẳng hạn như "và", "là", hoặc dấu "=" trong các công thức toán học, xác suất dự đoán đã được cố định ở một lớp rất nông của Transformer. Sức tỷ lệ băm khổng lồ của hàng chục lớp tiếp theo chỉ là hình thức đối với từ này, mà không cần bất kỳ sự sửa đổi tính toán đáng kể nào.

Tuy nhiên, đối với những mã thông báo quan trọng thực sự cần suy luận, chẳng hạn như các con số trong phương trình, các liên từ logic hoặc chính câu trả lời, các dự đoán của mô hình sẽ được điều chỉnh ở mức độ rất sâu trước khi hội tụ.

Các nhà nghiên cứu đã sử dụng độ phân kỳ toán học để đo lường sự khác biệt về phân bố giữa các lớp trung gian và kết quả cuối cùng, đề xuất chỉ báo "Tỷ lệ tư duy sâu" ( Độ sâu Thinking Rate - DTR). Chỉ số này được định nghĩa như sau: trong một văn bản nhất định, tỷ lệ phần trăm các từ khóa (token) vẫn dao động cho đến khi chúng đạt đến độ sâu của mạng lưới là bao nhiêu?

Nếu hầu hết các token yêu cầu tính toán phức tạp để hoàn tất, DTR sẽ cao; nếu chúng đều là các token đơn giản có thể được thanh toán bằng tính toán đơn giản, DTR sẽ thấp.

Chỉ báo này cũng có thể giải thích nhiều câu hỏi cơ bản đã được nêu ra trước đó.

Tại sao độ dài lại có tỷ lệ nghịch với độ chính xác? Bởi vì Chuỗi lập luận dài dòng thường chứa đầy những cụm từ hời hợt như "để tôi xem xét lại..." và "chờ đã, có lẽ..." làm kéo dài chuỗi nhưng không tạo ra suy nghĩ thực chất.

Tại sao Chuỗi ngắn có thể duy trì độ chính xác cao? Bởi vì Chuỗi này được cô đọng rất cao, đòi hỏi tính toán chuyên sâu cho hầu hết mọi token, và DTR (Data Reaction Rate) đang gần đạt đến giới hạn của nó.

Bài báo đưa ra một ví dụ điển hình. Khi giải cùng một bài toán hình học, các bài làm sai sử dụng 27.724 từ với tỷ lệ trả lời đúng (DTR) chỉ 13,9%; các bài làm đúng chỉ sử dụng 3.725 từ với DTR là 19,0%. Bài làm sai có đến 90% thông tin không liên quan, trong khi bài làm đúng chứa đầy thông tin giá trị.

Để chứng minh rằng họ đã thực sự xác định được tiêu chuẩn đúng, họ đã thử nghiệm nhiều nhóm mô hình suy luận khác nhau, bao gồm GPT-OSS, DeepSeek-R1 và Qwen3, trong các cuộc thi toán AIME năm 2024 và 2025, cuộc thi HMMT năm 2025 và cuộc thi khoa học GPQA cấp sau đại học. Kết quả cho thấy DTR có mối tương quan tích cực hoàn hảo với độ chính xác.

Do đó, chúng ta có thể khẳng định rằng DTR thực sự cung cấp cho chúng ta một tiêu chuẩn đánh giá chất lượng tư duy dựa trên động lực nội tại của mô hình, chứ không phải chỉ dựa trên số lượng từ bề ngoài.

Dựa trên DTR, bài báo cũng đề xuất phương pháp Think@n, được tối ưu hóa đặc biệt cho chế độ lấy mẫu đa cấp tốn kém nhất. Phương pháp truyền thống bao gồm việc tạo ra hàng chục Chuỗi suy luận hoàn chỉnh trước khi bỏ phiếu; Think@n chỉ yêu cầu mỗi luồng xuất ra 50 từ ban đầu, ngay lập tức tính toán DTR. Các luồng có DTR cực thấp, rõ ràng là đang lặp lại những câu nói sáo rỗng, sẽ bị chấm dứt, dành riêng tỷ lệ băm cho các ứng viên tiềm năng cao, thể hiện khả năng tính toán sâu mạnh mẽ ngay từ đầu. Các thí nghiệm cho thấy điều này đạt được hoặc vượt qua hiệu suất của phương pháp truyền thống với số lượng token chỉ bằng một nửa.

Tuy nhiên, bài báo này vẫn còn một thiếu sót lớn. Nó chỉ đóng nhân vật là người trọng tài, loại bỏ những ứng viên không đạt yêu cầu trong giai đoạn thử nghiệm.

Tuy nhiên, hướng đi trong tương lai thực sự khá rõ ràng: chúng ta có thể hoàn toàn chuyển đổi DTR thành tín hiệu khen thưởng cho giai đoạn học tăng cường (RL). Nếu trong giai đoạn hiệu chỉnh mô hình tương lai, chúng ta không chỉ đơn thuần khen thưởng mô hình khi đưa ra câu trả lời đúng, mà thay vào đó sử dụng nồng độ DTR cao làm một trong các hàm khen thưởng, chúng ta có thể thay đổi căn bản hành vi của mô hình. Điều này sẽ buộc mô hình phải học cách nén khối lượng tính toán khổng lồ thành các đầu ra chất lượng cao, cực kỳ tinh tế.

Đây là sự chuyển đổi thiết yếu từ tư duy dài hạn sang tư duy sâu sắc hơn. Trí thông minh không còn được đo bằng số lượng từ ngữ mà bằng mật độ tính toán.

03. Cách tư duy hiệu quả nhất là gì?

DTR thực sự cung cấp một tiêu chuẩn tốt để quan sát xem một mô hình có đang thực hiện quá trình tư duy có ý nghĩa hơn hay không, về cơ bản giải quyết vấn đề suy nghĩ quá mức trong việc xác định mô hình.

Nhưng nó không giải thích được tại sao những suy ngẫm sâu sắc hơn lại hiệu quả hơn.

Một bài báo gần đây của Đại học Carnegie Mellon và Đại học New York, "Từ Entropy đến Độ phức tạp hiển nhiên: Tái định nghĩa Lý thuyết thông tin cho các tác nhân bị hạn chế về khả năng tính toán," đã cung cấp cho chúng ta một manh mối trong lý thuyết thông tin.

Lý thuyết thông tin truyền thống tập trung vào thông tin ngẫu nhiên, hay entropy. Shannon cho chúng ta biết rằng lượng thông tin trong một văn bản phụ thuộc vào tính không thể dự đoán được của nó. Entropy càng cao, càng chứa nhiều thông tin.

Tuy nhiên, điều này hoàn toàn không giải thích được các mô hình tự chơi game dựa trên học độ sâu như AlphaGo. Đầu vào bạn cung cấp cho nó chỉ là luật chơi, có độ nhiễu rất thấp, nhưng thông qua quá trình tính toán (quá trình suy luận), mô hình có thể nắm vững nhiều loại đầu ra khác nhau.

Bài báo cho rằng mấu chốt nằm ở chỗ tất cả các tác nhân thông minh đều có tỷ lệ băm hữu hạn. Chúng ta không thể học hỏi vô hạn từ entropy; do đó, đối với các hệ thống như vậy, giá trị của dữ liệu không nằm ở tính ngẫu nhiên (entropy) của nó, mà nằm ở độ phức tạp cấu trúc có thể học được mà nó chứa đựng.

Đối với những người quan sát có tỷ lệ băm hạn chế (như người chơi hoặc mô hình AI), việc liệt kê toàn bộ cây trò chơi bằng phương pháp vét cạn là không khả thi, do đó cần phải rút các mẫu trừu tượng bậc cao hơn. Độ dài của các mẫu này vượt xa chính các quy tắc của trò chơi.

Đây là lý do tại sao COT lại hữu ích.

Họ định nghĩa sự phức tạp về cấu trúc này là tính đa tầng (epiplexity).

Một chuỗi khóa API được tạo ngẫu nhiên có thể có độ entropy cao, nhưng độ phức tạp (epiplexity) của nó gần bằng không vì mô hình không học được gì có thể chuyển giao từ đó. Ngược lại, một đoạn mã thuật toán có thể có độ entropy thấp, nhưng độ phức tạp cao vì việc hiểu nó đòi hỏi mô hình phải xây dựng các biểu diễn nội bộ phức tạp.

Điều này giải thích tại sao suy luận với DTR cao lại hiệu quả hơn, vì nó tạo ra nhiều Epiplexity hơn.

Khi mô hình thực hiện suy luận sâu, nó không chỉ đơn thuần là truy xuất ký ức hay áp dụng các quy tắc bề mặt, mà còn xây dựng các cấu trúc nhận thức mới trong thời gian thực .

Theo lý thuyết truyền thống, điều này là không thể vì các phép biến đổi xác định không thể bổ sung thông tin. Nhưng Epiplexity cho chúng ta biết rằng những chiến lược này không tự nhiên mà có, mà là những cấu trúc được tạo ra bởi chính quá trình tính toán .

Bài báo này định nghĩa lại quá trình suy luận như một quá trình tạo ra thông tin có cấu trúc .

Quan điểm truyền thống cho rằng rằng lập luận liên quan đến việc tìm kiếm trong không gian lời giải. Tuy nhiên, quan điểm về tính phức tạp (epiplexity) cho chúng ta biết rằng lập luận tốt không chỉ đơn thuần là tìm kiếm, mà là sự thay đổi năng động về cách biểu diễn không gian lời giải . Cũng giống như các nhà toán học không dùng phương pháp vét cạn để liệt kê các định lý, mà họ phát minh ra các đối tượng toán học mới và các kỹ thuật chứng minh mới để đơn giản hóa các vấn đề phức tạp.

Điểm chung của các bước này là chúng đều bổ sung thêm cấu trúc cho không gian bài toán . Các token suy luận thực sự có giá trị là những token buộc mô hình phải xây dựng các cấu trúc nội bộ mới, khám phá các mẫu mới và trích xuất các quy tắc trừu tượng hơn . Đặc điểm của chúng là việc tạo ra chúng đòi hỏi phải sử dụng toàn bộ sức mạnh tính toán của mạng nơ-ron sâu (DTR cao), bởi vì việc khớp mẫu nông không còn đủ nữa.

Hơn nữa, điều này cũng có thể thay đổi hiểu biết của chúng ta về trí thông minh. Vấn đề không phải là lượng thông tin được xử lý, mà là lượng cấu trúc được tạo ra . AlphaZero tạo ra các chiến lược cờ vây thông qua tự chơi, các nhà khoa học tạo ra các lý thuyết vật lý thông qua các thí nghiệm, và các mô hình ngôn ngữ tạo ra các biểu diễn có cấu trúc của các vấn đề thông qua suy luận sâu sắc. Về bản chất, tất cả đều giống nhau: các tác nhân thông minh có giới hạn về khả năng tính toán đang cố gắng rút các mẫu có thể nén được từ thế giới.

Nếu đặt sự tiến hóa từ CoT (Cognitive Thinking - Tư duy dựa trên năng lực) sang suy nghĩ quá mức rồi đến tư duy độ sâu trong bối cảnh lịch sử rộng lớn hơn, thì đó thực chất là một bức tranh thu nhỏ về sự chuyển đổi của các hệ thống AI từ định hướng năng lực sang định hướng tài nguyên. Cuộc cách mạng học độ sâu learning) thời kỳ đầu đã giải quyết câu hỏi "liệu chúng ta có thể làm được không?", chẳng hạn như "liệu chúng ta có thể nhận dạng hình ảnh?", "liệu chúng ta có thể tạo văn bản?" và "liệu chúng ta có thể thắng cờ vây?". Cuộc cách mạng tính toán trong quá trình thử nghiệm (test-time compute - CTT) đã thúc đẩy câu hỏi "liệu chúng ta có thể thực hiện nhiệm vụ khó khăn hơn?" - "liệu chúng ta có thể chứng minh các định lý toán học?", "liệu chúng ta có thể viết mã không lỗi?" và "liệu chúng ta có thể lập kế hoạch cho các dự án phức tạp?".

Nhưng giờ đây, khi những khả năng này đã hoàn thiện, câu hỏi quan trọng đặt ra là "làm thế nào để thực hiện điều đó một cách tiết kiệm nhất". Làm thế nào để đạt được chất lượng tương tự với lượng tính toán ít nhất, làm thế nào để phân bổ tài nguyên một cách linh hoạt dựa trên độ khó nhiệm vụ và làm thế nào để tránh lãng phí tính toán vào những việc không cần thiết.

Sự xuất hiện của vấn đề suy nghĩ quá mức là một hệ quả tất yếu của giai đoạn chuyển tiếp này.

Từ góc nhìn này, DTR và epiplexity không chỉ là công cụ đo lường, mà còn là một triết lý thiết kế mới. Chúng cho chúng ta biết rằng giá trị của tư duy không nằm ở việc tạo ra bao nhiêu văn bản, mà nằm ở việc sử dụng bao nhiêu phép tính có cấu trúc đằng sau văn bản đó, và đến mức độ nào những phép tính này có thể được chuyển giao cho nhiệm vụ mới.

Đây chính là bước chuyển mình thực sự từ tư duy dài hạn sang tư duy sâu sắc, và là một cách hiệu quả để giải quyết nút thắt cổ chai về tỷ lệ băm trong một thế giới mà các token ngày càng trở nên khan hiếm.

Bài viết này được đăng tải từ tài khoản WeChat chính thức "Tencent Technology" , tác giả: Bo Yang, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận