[Giới thiệu] Tại WWDC vừa qua, Siri của Apple được nhấn mạnh bằng từ khóa "tái tạo dựa trên AI", làm nổi bật xu hướng ngày càng tăng của "các mô hình phía thiết bị biên". Trước đó, Andrej Karpathy đã ủng hộ việc loại bỏ kiến thức khỏi các mô hình và chỉ giữ lại "lõi nhận thức". Một công ty Trung Quốc tuyên bố đã triển khai phương pháp này - sử dụng 4 tỷ tham số - để đạt được hiệu suất của một mô hình khổng lồ với hàng trăm tỷ tham số trong nhiệm vụ trí tuệ bầy đàn. Vậy chính xác thì các mô hình nhận thức phía thiết bị biên có thể thay đổi điều gì?
Đêm qua, Siri đã được tái sinh nhờ sử dụng Gemini, hệ thống có tới 1,2 nghìn tỷ tham số.
Mặt khác, Amazon đã đóng cửa bảng xếp hạng AI nội bộ của mình, điều này đã gây ra tranh cãi lớn - nhân viên sử dụng các công cụ AI lượng lớn, và tỷ lệ băm đã tăng vọt đến mức ban quản lý không thể ngồi yên.
Chi phí token đã trở thành rào cản khó khăn nhất cho việc triển khai AI trên quy mô lớn.
Trong một cuộc phỏng vấn trước đó, Andrej Karpathy đã đề xuất một hướng đi: loại bỏ lượng kiến thức khổng lồ trong mô hình và chỉ giữ lại một "lõi nhận thức" có khả năng suy nghĩ, lập kế hoạch và biết những gì nó không biết; các tham số ở cấp độ 1 tỷ sẽ là đủ.
https://www.youtube.com/watch?v=lXUZvyajciY
Hướng đi này đang được xác nhận.
Mô hình tham số 4 tỷ đã đạt được kết quả tương đương với các mô hình quy mô lớn với hàng trăm tỷ tham số, chẳng hạn như GPT-5.4, trong nhiệm vụ trí tuệ bầy đàn và hỗ trợ triển khai tại biên.
Nó đến từ một đội ngũ sáng lập từng đứng đầu bảng xếp hạng "Khuôn mặt ôm" của Nhật Bản với 3,6 tỷ điểm, đánh bại cả "Llama" với 65 tỷ điểm.
Lần, họ đã tạo ra mô hình nhận thức phía biên đầu tiên trong ngành.
Những lời tiên tri của Karpathy và hóa đơn tiền tỷ lệ băm
Áp lực về chi phí tỷ lệ băm đã chuyển từ vấn đề kỹ thuật sang vấn đề tài chính, và trường hợp của Amazon chỉ là một ví dụ.
Các nhân viên của Amazon thường xuyên sử dụng các công cụ AI nội bộ để truy cập khả năng suy luận của các mô hình lớn, làm tăng chi phí tỷ lệ băm tổng thể. Ban quản lý đã phải khẩn trương dừng cơ chế bảng xếp hạng để hạn chế việc sử dụng.
https://www.ft.com/content/b1a62a7f-6df5-4c90-94ce-64ce9c9961b6?syn-25a6b1a6=1
Ngành công nghiệp này đang trải qua " rút lui của token" lần , với một số công ty tiêu thụ hàng trăm triệu nhân dân tệ cho tỷ lệ băm mỗi ngày.
Các mô hình thương mại quy mô lớn đang gặp phải một rào cản về cấu trúc: khả năng càng mạnh và Chuỗi suy luận càng sâu thì chi phí cho lần cuộc gọi càng cao.
Tỷ lệ chi phí GPU trên doanh thu là một chỉ báo quan trọng đối với tất cả các công ty AI, và xu hướng gia tăng không ngừng của các tham số mô hình sẽ chỉ làm cho chỉ báo này trở nên tồi tệ hơn.
Cách tiếp cận của Karpathy chỉ ra một hướng đi khác: ông đề xuất loại bỏ "bộ nhớ/kiến thức" khỏi mô hình và giữ lại cái mà ông gọi là "cốt lõi nhận thức"—
Một thực thể bị tước bỏ một lượng lớn thông tin và kiến thức, nhưng vẫn giữ lại các thuật toán tư duy, phép thuật thông minh và chiến lược giải quyết vấn đề của mình.
Ông kết luận rằng ngay cả với quy mô 1 tỷ tham số, vẫn có thể đạt được khả năng tư duy hiệu quả giống con người:
Nó có thể suy nghĩ như con người... Nếu bạn hỏi nó một câu hỏi thực tế, nó có thể cần phải nghiên cứu — nó biết nó không biết, và nó sẽ tìm kiếm thông tin.
Tuyên bố này đã gây ra cuộc thảo luận rộng rãi trong cộng đồng công nghệ.
Một sự đồng thuận đang dần hình thành về hướng đi, nhưng yếu tố quan trọng thực sự là đội ngũ nào có thể biến "sự hiểu biết cốt lõi" từ một khái niệm thành một sản phẩm có thể triển khai được.
4B đạt được sự ngang bằng với các công ty có giá trị hàng trăm tỷ đô la; vậy NewCheng Alpha đã làm được gì?
Nextie là công ty đã biến "lõi nhận thức" của Karpathy từ ý tưởng thành sản phẩm.
Công ty này huấn luyện các mô hình suy luận mã nguồn mở bằng cách sử dụng học tăng cường, tách rời kiến thức khỏi nhận thức — loại bỏ các kho kiến thức đã ghi nhớ khỏi mô hình và tăng cường khả năng khái quát hóa và tư duy trừu tượng.
Mô hình thu được, có tên là NewChengAlpha , có 4 byte tham số. Nó đã được huấn luyện và ra mắt, và là sản phẩm đầu tiên trong ngành được định nghĩa là "mô hình nhận thức".
Xét về phương pháp huấn luyện cụ thể, đây thực sự là một điểm khởi đầu không phổ biến.
Đội ngũ Tomorrow's New Journey đã tổng hợp các bài báo học thuật của con người trải dài 220 năm, từ năm 1800 đến năm 2020, nhằm mục đích truy tìm sự tiến hóa của trí tuệ bầy đàn và cung cấp tài liệu tham khảo cho các lộ trình công nghệ.
Dựa trên nghiên cứu này, học tăng cường được áp dụng cho mô hình suy luận mã nguồn mở, tập trung vào việc cải thiện khả năng khái quát hóa và trừu tượng hóa của nó.
Để đưa ra một ví dụ sinh động: mô hình được huấn luyện có thể chuyển giao các mô hình ra quyết định của người chơi cờ vây sang các tình huống đời sống hàng ngày — "thuật toán bảo toàn tư duy" của Karpathy có một ứng dụng kỹ thuật cụ thể ở đây.
Về hiệu năng, NewCheng Alpha đạt được chất lượng đầu ra tương đương với các mô hình lớn như GPT-5.4 trong nhiệm vụ trí tuệ bầy đàn (tranh luận, suy ngẫm, thách thức, bỏ phiếu, v.v.), với những ưu điểm vượt trội về mức tiêu thụ tỷ lệ băm và tốc độ suy luận.
Điều đáng chú ý hơn nữa là không gian bối cảnh được mở ra bởi mô hình này, với ba lớp ý nghĩa tiến triển.
Lớp đầu tiên tập trung vào việc cải thiện chất lượng ra quyết định của hệ thống đa tác nhân.
Trong khuôn khổ ra quyết định Harness, kết quả đầu ra của mô hình nhận thức vượt trội hơn so với mô hình lý luận.
Nâng cấp mô hình cơ bản từ "lý luận" lên "nhận thức" mang lại bước tiến vượt bậc về chất lượng tổng thể của chuỗi ra quyết định trong các hệ thống hợp tác đa tác nhân.
Lớp thứ hai giúp giảm đáng kể chi phí tỷ lệ băm.
So với các mô hình có hàng trăm tỷ tham số, việc triển khai trên nền tảng đám mây giúp giảm đáng kể chi phí tỷ lệ băm.
Alpha mới cũng hỗ trợ triển khai tại biên – MacBook và các thiết bị thông minh có thể chạy trực tiếp, nhờ đó chuyển đổi chi phí tỷ lệ băm thành chi phí điện năng.
这对具身智能领域意义尤为突出:用千亿参数大模型驱动一个家务机器人,每一次「思考」都在消耗lượng lớnToken,综合成本可能比请人做家务还贵。
Việc triển khai hệ thống biên 4B đã thay đổi hoàn toàn quan điểm này.
Lớp thứ ba là mở khóa cảnh chủ động.
Hiện nay, phần lớn các sản phẩm AI hoạt động ở chế độ phản hồi — người dùng đưa ra lệnh và mô hình phản hồi lại.
Chế độ chủ động có nghĩa là các tác nhân thông minh đưa ra quyết định tự chủ và thực hiện nhiệm vụ mà không cần chờ lệnh, và quy mô thương mại của nó vượt xa chế độ phản ứng, nhưng chi phí tỷ lệ băm luôn là rào cản khiến nó khó tiếp cận.
Alpha mới hỗ trợ hoạt động liên tục 24/7 với chi phí có thể kiểm soát được, giúp hiện thực hóa các tác nhân thông minh chủ động, vốn trước đây bị gác lại do chi phí cao.
Các quân bài chủ lực đội ngũ và vị trí trên đường đua
Tomorrow's New Journey được thành lập bởi đội ngũ sáng lập Microsoft Xiaoice.
Phương châm của đội ngũ là "chiến thắng với số lượng tham số nhỏ trước số lượng tham số lớn" - mô hình mã nguồn mở Rinna (tiếng Nhật là Xiaoice) đã được huấn luyện trước đó đã đứng đầu bảng xếp hạng Hugging Face của Nhật Bản với 3,6 tỷ tham số, đánh bại Llama với 65 tỷ tham số.
Alpha mới sử dụng công nghệ 4B để đạt được hiệu năng tương đương với mô hình quy mô lớn có hàng trăm tỷ người dùng, tiếp tục kế thừa những công nghệ tiên tiến tương tự.
Lĩnh vực đầu tư trọng điểm của Tomorrow New Journey là khai thác công nghệ đa tác tử bầy đàn.
Lĩnh vực này đang nhận được sự công nhận từ các nhà đầu tư hàng đầu – vào tháng 3 năm 2026, OpenAI đã đầu tư vào công ty khởi nghiệp Isara, trực tiếp đẩy giá trị của công ty lên 650 triệu đô la. Nghiên cứu của Isara tập trung vào sự hợp tác đa tác nhân và trí tuệ bầy đàn.
https://www.wsj.com/tech/ai/openai-backs-new-ai-startup-seeking-bot-army-breakthroughs-a0b1fedc
Trong đánh giá độ sâu thông minh (IDI) của lĩnh vực này, hiệu suất tổng thể của Tomorrow's New Journey cao hơn đáng kể so với bất kỳ mô hình lớn nào riêng lẻ.
Vốn đầu tư đã xác nhận giá trị của dự án, trong khi dữ liệu đánh giá xác định vị trí của Tomorrow's New Journey trong dự án.
Hai tín hiệu này kết hợp lại đều chỉ ra cùng một kết luận: các bầy đàn đa tác tử là hướng đi có giá trị cao tiếp theo cho các ứng dụng AI, và các mô hình nhận thức là cơ sở hạ tầng then chốt thúc đẩy điều đó.
Các mô hình nhận thức không chỉ thay đổi các tham số mà còn thay đổi cả sổ cái.
Tỷ lệ chi phí trên doanh thu của GPU là một thanh gươm Damocles treo lơ lửng trên đầu tất cả các công ty AI.
Giải pháp do mô hình nhận thức đưa ra chỉ ra sự tái cấu trúc của mô hình kinh tế—đạt được hiệu quả chỉ có thể có ở mức hàng trăm tỷ với mô hình 4 tỷ đồng nghĩa với việc cùng một chất lượng đầu ra tương ứng với một cấu trúc chi phí hoàn toàn khác.
Trong một cuộc phỏng vấn, Tomorrow New Journey tiết lộ rằng đội ngũ đang huấn luyện một mô hình nhận thức 8B với khả năng khái quát hóa mạnh mẽ hơn.
Nếu 4B đã có thể cạnh tranh với GPT-5.4 trong nhiệm vụ trí tuệ bầy đàn, thì khả năng của 8B hứa hẹn sẽ còn nhiều điều thú vị hơn nữa.
Một câu hỏi quan trọng hơn vẫn còn đó cho toàn ngành: khi chi phí vận hành mô hình nhận thức liên tục 24/7 giảm xuống mức không đáng kể, tất cả các sản phẩm AI được thiết kế hiện nay dựa trên mô hình phản hồi "người dùng đưa ra lệnh, mô hình phản hồi" có thể cần phải xem xét lại hình thức sản phẩm của mình.
Tiềm năng thương mại của các tác nhân thông minh chủ động vượt xa so với các tác nhân thông minh phản ứng hiện tại.
Bài viết này được lấy từ tài khoản WeChat công cộng "New Zhiyuan" , tác giả: ASI Revelation, và được xuất bản với sự cho phép của 36Kr.



