Sáu sự thay đổi lớn về mô hình AI trong năm 2025: Từ huấn luyện RLVR và lập trình cảm xúc đến chuối nano

01-04

Bài viết này được dịch máy

Xem bản gốc

Năm 2025 là một năm phát triển nhanh chóng và đầy biến động đối với các mô hình ngôn ngữ quy mô lớn, và chúng ta đã đạt được những kết quả khả quan. Dưới đây là một số "sự thay đổi mô hình" mà cá nhân tôi cho rằng đáng chú ý và có phần bất ngờ; những thay đổi này đã làm thay đổi cục diện và, ít nhất là về mặt khái niệm, đã gây ấn tượng sâu sắc với tôi.

Văn bản gốc: Tổng kết năm học 2025 chương trình LLM

Tác giả: Andrej Karpathy

Biên soạn bởi: Tim, PANews

Năm 2025 là một năm phát triển nhanh chóng và đầy biến động đối với các mô hình ngôn ngữ quy mô lớn, và chúng ta đã đạt được những kết quả khả quan. Dưới đây là một số "sự thay đổi mô hình" mà cá nhân tôi cho rằng đáng chú ý và có phần bất ngờ; những thay đổi này đã làm thay đổi cục diện và, ít nhất là về mặt khái niệm, đã gây ấn tượng sâu sắc với tôi.

1. Học tăng cường dựa trên phần thưởng có thể kiểm chứng (RLVR)

Vào đầu năm 2025, cấu trúc sản phẩm LLM của tất cả các phòng thí nghiệm AI sẽ大致 có dạng như sau:

Đào tạo trước khóa học (GPT-2/3 năm 2020);
Điều chỉnh tinh vi có giám sát (InstructGPT vào năm 2022);
Và học tăng cường dựa trên phản hồi của con người (RLHF, 2022).

Từ lâu, đây đã là một nền tảng công nghệ ổn định và hoàn thiện để huấn luyện các mô hình ngôn ngữ quy mô lớn sẵn sàng cho sản xuất. Đến năm 2025, học tăng cường dựa trên phần thưởng có thể kiểm chứng đã trở thành công nghệ cốt lõi được áp dụng chủ yếu. Bằng cách huấn luyện các mô hình ngôn ngữ quy mô lớn trong nhiều hoàn cảnh khác nhau với phần thưởng có thể tự động kiểm chứng (chẳng hạn như giải quyết vấn đề toán học và lập trình), các mô hình này có thể tự hình thành các chiến lược giống như "lý luận" theo cách hiểu của con người. Chúng học cách phân tích quá trình giải quyết vấn đề thành các bước tính toán trung gian và nắm vững nhiều chiến lược để giải quyết vấn đề thông qua suy diễn lặp đi lặp lại (tham khảo ví dụ trong bài báo DeepSeek-R1). Trong các nền tảng trước đây, các chiến lược này rất khó thực hiện vì đường dẫn lý luận tối ưu và cơ chế quay lui không được thể hiện rõ ràng đối với các mô hình ngôn ngữ quy mô lớn, và các giải pháp phải được tìm kiếm thông qua tối ưu hóa phần thưởng để tìm ra các giải pháp phù hợp.

Không giống như tinh chỉnh có giám sát và học tăng cường dựa trên phản hồi của con người (hai giai đoạn này tương đối ngắn và tốn ít chi phí tính toán), học tăng cường dựa trên phần thưởng có thể kiểm chứng liên quan đến quá trình huấn luyện tối ưu hóa dài hạn trên một hàm phần thưởng khách quan, không dựa trên lý thuyết trò chơi. Người ta đã chứng minh rằng việc chạy học tăng cường dựa trên phần thưởng có thể kiểm chứng có thể mang lại những cải tiến hiệu suất đáng kể với chi phí nhất định, tiêu tốn lượng lớn tài nguyên tính toán ban đầu dành cho huấn luyện trước. Do đó, những tiến bộ trong khả năng của mô hình ngôn ngữ lớn vào năm 2025 chủ yếu sẽ được phản ánh ở việc các phòng thí nghiệm AI lớn hấp thụ nhu cầu tính toán khổng lồ do công nghệ mới này mang lại. Nhìn chung, chúng ta thấy rằng trong khi kích thước mô hình vẫn gần như không đổi, thời gian huấn luyện cho học tăng cường đã được kéo dài đáng kể. Một khía cạnh độc đáo khác của công nghệ mới này là chúng ta đã có được một chiều kiểm soát hoàn toàn mới (và Định luật Tỷ lệ tương ứng), cụ thể là kiểm soát khả năng của mô hình như một hàm của chi phí tính toán trong quá trình thử nghiệm bằng cách tạo ra các quỹ đạo suy luận dài hơn và tăng "thời gian suy nghĩ". Mô hình o1 của OpenAI (ra mắt vào cuối năm 2024) là minh chứng đầu tiên cho mô hình học tăng cường dựa trên phần thưởng có thể kiểm chứng, trong khi sự ra mắt của o3 (đầu năm 2025) là một bước ngoặt rõ rệt, cho phép một bước tiến vượt bậc đáng kể.

2. Trí tuệ ma quái so với trí tuệ răng cưa giống động vật

Năm 2025 đánh dấu lần đầu tiên tôi (và tôi cho rằng toàn bộ ngành công nghiệp) bắt đầu hiểu "hình thức" của trí tuệ mô hình ngôn ngữ lớn từ một góc nhìn trực quan hơn. Chúng ta không phải đang "tiến hóa và nhân giống động vật", mà là "triệu hồi những hồn ma". Toàn bộ hệ thống công nghệ của các mô hình ngôn ngữ lớn (kiến trúc thần kinh, dữ liệu huấn luyện, thuật toán huấn luyện, và đặc biệt là mục tiêu tối ưu hóa) về cơ bản là khác biệt. Do đó, không có gì đáng ngạc nhiên khi chúng ta đang thu được những thực thể trong lĩnh vực trí tuệ khác biệt rất nhiều so với trí tuệ sinh học; việc xem xét chúng từ góc độ động vật là không phù hợp. Từ góc độ thông tin có giám sát, mạng lưới thần kinh của con người được tối ưu hóa cho sự sinh tồn của bộ lạc trong hoàn cảnh rừng rậm, trong khi mạng lưới thần kinh mô hình ngôn ngữ lớn được tối ưu hóa để bắt chước văn bản của con người, đạt được phần thưởng trong các bài toán toán học và giành được sự chấp thuận của con người trong các đấu trường. Khi các miền có thể kiểm chứng cung cấp các điều kiện cho học tăng cường dựa trên phần thưởng có thể kiểm chứng, khả năng của các mô hình ngôn ngữ lớn trong các miền này sẽ "bùng nổ", thể hiện đặc điểm hiệu suất tổng thể thú vị và không đồng đều. Chúng có thể vừa là những thiên tài uyên bác vừa là những học sinh tiểu học bối rối, gặp khó khăn về nhận thức, có khả năng làm rò rỉ dữ liệu của bạn khi bị ép buộc.

Liên quan đến điều này, vào năm 2025, tôi đã phát triển thái độ thờ ơ và thiếu tin tưởng nói chung đối với nhiều tiêu chuẩn đánh giá. Vấn đề cốt lõi là các tiêu chuẩn đánh giá về cơ bản là hoàn cảnh có thể kiểm chứng, khiến chúng rất dễ bị ảnh hưởng bởi học tăng cường dựa trên phần thưởng có thể kiểm chứng và các dạng yếu hơn được tạo ra từ dữ liệu tổng hợp. Trong quy trình "tối đa hóa điểm số" điển hình, đội ngũ triển mô hình ngôn ngữ lớn chắc chắn sẽ xây dựng hoàn cảnh huấn luyện gần với không gian nhúng nhỏ của các tiêu chuẩn đánh giá và bao phủ các khu vực này bằng "khả năng không đồng đều". "Huấn luyện trên tập dữ liệu kiểm tra" đã trở thành chuẩn mực mới.

Vậy nếu nó vượt qua tất cả các bài kiểm tra chuẩn nhưng vẫn không đạt được trí tuệ nhân tạo tổng quát thì sao?

3. Con trỏ: Một lớp mới cho các ứng dụng LLM

Điều gây ấn tượng nhất với tôi về Cursor (ngoài sự phát triển nhanh chóng của nó trong năm nay) là sự hé lộ đầy thuyết phục về một hệ thống phân cấp mới của “các ứng dụng LLM” khi mọi người bắt đầu nói về “Cursor cho các lĩnh vực XX”. Như tôi đã nhấn mạnh trong bài thuyết trình tại Y Combinator năm nay, cốt lõi của các ứng dụng LLM như Cursor nằm ở việc tích hợp và điều phối các yêu cầu LLM cho các lĩnh vực chuyên ngành cụ thể:

Họ chịu trách nhiệm về "kỹ thuật bối cảnh";
Ở cấp độ cơ bản, nhiều lệnh gọi LLM được điều phối thành các đồ thị không chu trình có hướng ngày càng phức tạp, với sự cân bằng tinh tế giữa hiệu suất và chi phí; và các giao diện đồ họa dành riêng cho ứng dụng được cung cấp cho những người tham gia vào "vòng lặp con người".
Nó cũng cung cấp một "thanh trượt điều chỉnh tự động".

Đến năm 2025, đã có những cuộc thảo luận lượng lớn xoay quanh tiềm năng phát triển của lớp ứng dụng mới nổi này. Liệu các nền tảng mô hình ngôn ngữ quy mô lớn sẽ thống trị tất cả các ứng dụng, hay vẫn còn rất nhiều khả năng cho các ứng dụng mô hình ngôn ngữ quy mô lớn? Dự đoán cá nhân của tôi là định vị của các nền tảng mô hình ngôn ngữ quy mô lớn sẽ dần hội tụ về việc đào tạo "những người tốt nghiệp đại học đa năng", trong khi các ứng dụng mô hình ngôn ngữ quy mô lớn sẽ chịu trách nhiệm tổ chức và hoàn thiện những "người tốt nghiệp" này, và bằng cách cung cấp dữ liệu sở hữu tư nhân , cảm biến, bộ truyền động và vòng phản hồi, cho phép họ thực sự trở thành " đội ngũ chuyên nghiệp" có thể được triển khai trong các lĩnh vực chuyên ngành cụ thể.

4. Mã Claude: Trí tuệ nhân tạo chạy cục bộ

Sự xuất hiện của Claude Code đã chứng minh một cách thuyết phục hình thức của các tác nhân LLM lần đầu tiên. Nó kết hợp việc sử dụng công cụ với quá trình suy luận theo một chu trình, cho phép giải quyết vấn đề phức tạp và bền bỉ hơn. Hơn nữa, điều khiến tôi ấn tượng về Claude Code là nó chạy trên máy tính cá nhân của người dùng, được tích hợp độ sâu với hoàn cảnh, dữ liệu và ngữ cảnh sở hữu tư nhân của người dùng. Tôi cho rằng đánh giá của OpenAI theo hướng này có phần thiếu sót, vì họ đã tập trung phát triển trợ lý mã và tác nhân của mình vào triển khai trên đám mây—cụ thể là hoàn cảnh container được điều phối bởi ChatGPT—thay vì hoàn cảnh localhost cục bộ. Mặc dù các cụm tác nhân chạy trên đám mây dường như đại diện cho "hình thức tối thượng của trí tuệ nhân tạo tổng quát", nhưng hiện tại chúng ta đang ở trong giai đoạn chuyển tiếp đặc trưng bởi sự phát triển năng lực không đồng đều và tiến độ tương đối chậm. Trong những trường hợp này, việc triển khai các tác nhân trực tiếp trên máy tính cục bộ, cộng tác chặt chẽ với các nhà phát triển và hoàn cảnh làm việc cụ thể của họ, là một con đường hợp lý hơn. Claude Code nắm bắt chính xác ưu tiên này và gói gọn nó trong một công cụ dòng lệnh ngắn gọn, thanh lịch và vô cùng hấp dẫn, do đó định hình lại cách trình bày AI. Giờ đây, chúng ta không chỉ cần truy cập một trang web như Google nữa, mà là một thực thể nhỏ bé hay một "bóng ma" ẩn náu trong máy tính của bạn. Đây là một mô hình hoàn toàn mới và độc đáo để tương tác với trí tuệ nhân tạo.

5. Lập trình cảm xúc (Lập trình môi trường)

Đến năm 2025, AI sẽ vượt qua một ngưỡng năng lực quan trọng, cho phép xây dựng các chương trình tuyệt vời chỉ bằng mô tả tiếng Anh, mà không cần biết mã nguồn. Điều thú vị là, tôi đã đặt ra thuật ngữ "Vibe Coding" trong một dòng tweet ngẫu nhiên khi đang tắm, mà không bao giờ tưởng tượng rằng nó sẽ phát triển đến trạng thái hiện tại. Trong mô hình Vibe Coding, lập trình không còn bị giới hạn nghiêm ngặt đối với các chuyên gia được đào tạo bài bản, mà trở thành điều mà mọi người đều có thể tham gia. Từ góc nhìn này, đó là một ví dụ khác về hiện tượng mà tôi đã mô tả trong bài viết của mình, "Trao quyền cho mọi người: Mô hình ngôn ngữ lớn đang thay đổi mô hình lan truyền công nghệ như thế nào". Trái ngược hoàn toàn với tất cả các công nghệ khác cho đến nay, người dân bình thường được hưởng lợi nhiều hơn từ các mô hình ngôn ngữ lớn so với các chuyên gia, doanh nghiệp và chính phủ. Nhưng Vibe Coding không chỉ trao quyền cho người dân bình thường tiếp cận lập trình mà còn trao quyền cho các nhà phát triển chuyên nghiệp viết ra nhiều phần mềm mà "nếu không thì sẽ không bao giờ được triển khai". Khi phát triển nanochat, tôi đã sử dụng Vibe Coding để viết một bộ phân tích từ vựng BPE tùy chỉnh, hiệu quả bằng Rust, mà không cần dựa vào các thư viện hiện có hoặc tìm hiểu sâu về Rust. Năm nay, tôi cũng đã sử dụng lập trình môi trường xung quanh để nhanh chóng tạo nguyên mẫu cho một số dự án, chỉ để xác minh tính khả thi của một số ý tưởng nhất định. Tôi thậm chí còn viết toàn bộ một ứng dụng dùng một lần chỉ để tìm ra một lỗ hổng cụ thể, bởi vì mã nguồn đột nhiên trở nên tự do, tạm thời, dễ uốn nắn và có thể bị loại bỏ. Lập trình môi trường xung quanh sẽ định hình lại hệ sinh thái phát triển phần mềm và thay đổi sâu sắc ranh giới của các định nghĩa nghề nghiệp.

6. Nano Banana: Giao diện đồ họa LLM

Quả chuối Gemini Nano của Google là một trong những sự thay đổi Sự lật đổ nhất năm 2025. Theo tôi, Mô hình Ngôn ngữ Lớn (LLM) đại diện cho mô hình điện toán chính tiếp theo sau máy tính của những năm 1970 và 80. Do đó, chúng ta sẽ thấy những đổi mới tương tự dựa trên những lý do cơ bản tương tự, giống như sự phát triển của máy tính cá nhân, vi điều khiển và thậm chí cả internet. Đặc biệt trong tương tác người-máy, chế độ "đàm thoại" hiện tại với LLM có phần tương tự như việc nhập lệnh vào thiết bị đầu cuối máy tính vào những năm 1980. Văn bản là hình thức biểu diễn dữ liệu nguyên thủy nhất đối với máy tính (và LLM), nhưng nó không phải là phương pháp được con người ưa thích (đặc biệt là khi nhập liệu). Con người thực sự không thích đọc văn bản; nó chậm và tốn công. Thay vào đó, con người thích nhận thông tin thông qua các chiều không gian và hình ảnh, đó là lý do tại sao giao diện người dùng đồ họa (GUI) ra đời trong điện toán truyền thống. Tương tự, các Mô hình Ngôn ngữ Lớn cần giao tiếp với chúng ta theo cách mà con người ưa thích, thông qua hình ảnh, đồ họa thông tin, slide, bảng trắng, hoạt hình, video, ứng dụng web và các phương tiện truyền thông khác. Các hình thức ban đầu đã đạt được điều này thông qua "trang trí văn bản trực quan" như biểu tượng cảm xúc và Markdown (ví dụ: tiêu đề, in đậm, danh sách, bảng và các yếu tố kiểu chữ khác). Nhưng ai sẽ là người cuối cùng xây dựng giao diện đồ họa cho một mô hình ngôn ngữ lớn? Từ góc nhìn này, nano banana là một nguyên mẫu ban đầu của bản thiết kế tương lai đó. Điều đáng chú ý là bước đột phá của nano banana không chỉ nằm ở khả năng tạo hình ảnh mà còn ở khả năng toàn diện được hình thành bởi sự kết hợp giữa tạo văn bản, tạo hình ảnh và kiến thức thế giới trong tỷ trọng của mô hình .

Tuyên bố miễn trừ trách nhiệm: Là blockchain, các bài viết được đăng tải trên trang web này chỉ thể hiện quan điểm cá nhân của tác giả và khách mời và không phản ánh lập trường của Web3Caff. Thông tin trong các bài viết chỉ mang tham khảo và không cấu thành bất kỳ lời khuyên hoặc đề nghị đầu tư nào. Vui lòng tuân thủ các luật và quy định hiện hành của quốc gia hoặc khu vực của bạn.

Chào mừng bạn đến với cộng đồng chính thức của Web3Caff : Tài khoản Twitter | Tài khoản Twitter nghiên cứu của Web3Caff | Nhóm độc giả WeChat | Tài khoản chính thức WeChat

Khu vực:

Layer 1

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan