GPT-5.2 đã được sử dụng trong 7 ngày liên tiếp, tạo ra 3 triệu dòng mã, từ đó xây dựng một trình duyệt có trình độ tương đương Chrome.

01-15

Bài viết này được dịch máy

Xem bản gốc

[Giới thiệu] Một mô hình lớn có thể liên tục viết mã trong bao lâu? Một giờ? Một ngày? Hay, giống như hầu hết các công cụ lập trình AI, cuộc đối thoại sẽ kết thúc khi một nhiệm vụ hoàn thành? Giám đốc điều hành của Cursor, Michael Truell, đã quyết định thực hiện một bài kiểm tra chịu tải cực độ!

Michael Truell đã chạy GPT-5.2 trong Cursor liên tục suốt một tuần .

Không phải một giờ, không phải một ngày, mà là 168 giờ liên tục, không ngủ không nghỉ, chỉ viết mã không ngừng nghỉ.

kết quả?

3 triệu dòng mã. Hàng ngàn tập tin.

Trí tuệ nhân tạo đã xây dựng một trình duyệt hoàn toàn mới từ đầu.

Hơn nữa, nó là một trình duyệt giống như Chrome.

Phân tích cú pháp HTML, bố cục CSS, hiển thị văn bản và một máy ảo JavaScript tự phát triển—tất cả đều do chính trí tuệ nhân tạo viết ra.

Michael Truell đã đăng tải một dòng tweet đầy vẻ thoải mái: Về cơ bản là nó hoạt động! Các trang web đơn giản hiển thị nhanh chóng và chính xác.

Mô hình có thể hoạt động trong bao lâu?

Các công cụ lập trình AI truyền thống, chẳng hạn như Github Copilot và các IDE đời đầu khác, đều tuân theo mô hình hỏi đáp.

Độ dài đoạn hội thoại bị giới hạn, bối cảnh bị giới hạn và độ phức tạp nhiệm vụ cũng bị giới hạn.

Sau đó, cái gọi là lập trình tác nhân (Agentic programming) xuất hiện - các công cụ như Claude Code, Cursor Agent và Windsurf cho phép trí tuệ nhân tạo tự động thực hiện nhiệm vụ nhiều bước, đọc tập tin, chạy lệnh và sửa lỗi.

Đây đã là một sự cải thiện đáng kể, nhưng trong hầu hết các trường hợp, nhiệm vụ vẫn được tính bằng phút, nhiều nhất là vài giờ.

Trí tuệ nhân tạo hoàn thành một chức năng, con người xem xét kết quả, và sau đó quy trình chuyển sang nhiệm vụ tiếp theo.

Nhưng chưa ai từng thử chạy mô hình liên tục trong một tuần cả.

Cho đến GPT-5.2.

Đội ngũ Cursor đã duy trì hoạt động của GPT-5.2 liên tục trong suốt một tuần , chứ không phải gián đoạn .

Trong tuần này, nó sẽ:

Anh ấy đã viết hơn 3 triệu dòng mã lập trình.
Hàng ngàn tập tin đã được tạo ra.
Hàng nghìn tỷ token đã được thực thi.
Một công cụ hiển thị trình duyệt hoàn chỉnh đã được xây dựng từ đầu.

Mô hình có thể hoạt động thực tế trong bao lâu?

Câu trả lời là: về mặt lý thuyết, nó có thể là vô hạn .

Chỉ cần cơ sở hạ tầng ổn định và nhiệm vụ đủ rõ ràng, AI có thể hoạt động liên tục—không cần ngủ, không cần ăn uống, 24/7, quanh năm.

Giống như "chợ đen mạng" của người chăn cừu ở Úc.

Tuy nhiên, trên thực tế, "độ bền" của các mẫu xe khác nhau lại rất khác biệt.

Cửa sổ ngữ cảnh là trở ngại đầu tiên.

Các phiên bản đầu tiên của GPT-3.5 chỉ có ngữ cảnh token 4K, có nghĩa là các cuộc hội thoại sẽ bị quên nếu chúng kéo dài quá lâu.

Claude 3 giới thiệu 200.000 ngữ cảnh, GPT-4 Turbo tiếp theo với 128.000, và Gemini 1.5 Pro thậm chí còn tuyên bố hỗ trợ 1 triệu token.

Tuy nhiên, độ dài ngữ cảnh chỉ là một giá trị lý thuyết — bài kiểm tra thực sự là liệu mô hình có thể duy trì tính nhất quán, sự tập trung và khả năng thực thi trong nhiệm vụ dài hay không.

Đội ngũ Cursor đã phát hiện ra những điểm khác biệt quan trọng trong các thí nghiệm của họ.

Trong bài đăng chính thức trên blog của Cursor, đội ngũ đã phát hiện ra những điểm khác biệt quan trọng trong các thí nghiệm của họ:

GPT-5.2 có thể hoạt động tự chủ trong thời gian dài, tuân thủ chính xác các chỉ dẫn và duy trì sự tập trung mà không bị lệch khỏi lộ trình.
Claude Opus 4.5 có xu hướng kết thúc càng sớm càng tốt, sử dụng các lối tắt và thường xuyên trả lại quyền điều khiển cho người dùng;
Mặc dù GPT-5.1-Codex được thiết kế để đào tạo lập trình, nhưng khả năng lập kế hoạch của nó không tốt bằng GPT-5.2, do đó dễ bị gián đoạn.

Nói thẳng ra thì: Opus giống như một thực tập sinh thiếu kiên nhẫn , sau khi làm việc một lúc, muốn hỏi, "Như thế này ổn chưa? Tôi sẽ nộp ngay bây giờ."

GPT-5.2 giống như một kỹ sư cao cấp giàu kinh nghiệm ; một khi nhiệm vụ được giải thích rõ ràng, nó sẽ tập trung hết sức và bắt tay vào công việc.

Đây là lý do tại sao Cursor chính thức tuyên bố rằng GPT-5.2 là một mô hình tiên tiến để xử lý nhiệm vụ kéo dài.

Không chỉ riêng trình duyệt.

Cursor cũng tiết lộ các dự án thử nghiệm khác hiện đang hoạt động: JavaLSP, một trình giả lập Windows 7 và một bản sao của Excel.

Dữ liệu thật đáng kinh ngạc; bản thân AI đã viết 550.000 dòng mã, 1,2 triệu dòng mã và 1,6 triệu dòng mã. (Nhân tiện, Excel thậm chí còn có nhiều mã hơn cả Windows, theo một cách hơi phóng đại.)

Hợp tác hệ thống đa tác nhân

Một mô hình có thể viết 3 triệu dòng mã mỗi tuần, và đó là quá trình viết liên tục mà không cần sự can thiệp của con người!

Rõ ràng đây không phải là một mô hình "tự vận hành". Nó đã làm được điều đó như thế nào?

Đội ngũ Cursor đã tiết lộ vũ khí bí mật của họ: Hệ thống Đa tác nhân .

Ban đầu, họ cố gắng để tất cả các tác nhân cộng tác bình đẳng, đồng bộ hóa trạng thái bằng cách chia sẻ tệp. Kết quả cho thấy:

Các tác nhân có thể giữ khóa quá lâu hoặc đơn giản là quên nhả khóa. Tốc độ của hai mươi tác nhân giảm xuống tương đương với thông lượng của hai hoặc ba tác nhân.

Điều này rất giống với những vấn đề thường gặp trong đội ngũ làm việc của con người: quá nhiều cuộc họp, chi phí giao tiếp cao và ranh giới trách nhiệm không rõ ràng.

Giải pháp hiệu quả nhất là kiến trúc phân lớp :

Người lập kế hoạch : Liên tục khám phá mã nguồn, tạo nhiệm vụ và đưa ra các quyết định cấp cao.
Người lao động : Tập trung vào việc hoàn thành nhiệm vụ cụ thể, không quan tâm đến bức tranh tổng thể; sau khi hoàn thành, họ chuyển sang nhiệm vụ tiếp theo.
Đánh giá (Tác nhân) : Xác định xem mỗi lần lặp có đạt yêu cầu hay không và quyết định có nên chuyển sang giai đoạn tiếp theo hay không.

Đây gần như là cấu trúc tổ chức của một công ty phần mềm do con người điều hành: các nhà quản lý/kiến trúc sư sản phẩm chịu trách nhiệm lập kế hoạch, lập trình viên chịu trách nhiệm thực thi, và bộ phận kiểm thử chất lượng (QA) chịu trách nhiệm xem xét.

Nhưng điểm khác biệt là điều này liên quan đến hàng trăm hoặc hàng nghìn tác nhân làm việc đồng thời .

Đội ngũ Cursor đã giúp hàng trăm nhân viên cộng tác trên cùng một mã nguồn trong nhiều tuần mà hầu như không xảy ra xung đột mã nào.

Điều này có nghĩa là trí tuệ nhân tạo đã học được các kỹ năng hợp tác mà đội ngũ người phải mất nhiều năm mới phát triển được.

Các trình duyệt có "hệ thống bảo vệ" sâu rộng hơn bạn tưởng rất nhiều.

Nếu bạn nghe những nhận xét kiểu như "Nó chỉ là phần mềm hiển thị các trang web thôi", thì bất kỳ kỹ sư nào từng làm việc với nhân trình duyệt có lẽ sẽ chỉ mỉm cười mỉa mai.

Trong Chuỗi của khoa học máy tính, độ khó của việc tự viết nhân trình duyệt lần tự viết hệ điều hành.

Để bạn hình dung được 3 triệu dòng mã có nghĩa là gì, chúng ta cần xem xét Chromium của Google (ngôn ngữ lập trình mã nguồn mở thân của Chrome).

Là một trong những đỉnh cao của kỹ thuật phần mềm do con người tạo ra, mã nguồn của Chromium từ lâu đã vượt quá 35 triệu dòng .

Nó không chỉ đơn thuần là phần mềm; về bản chất, nó là một "hệ điều hành được ngụy trang dưới dạng ứng dụng".

Thách thức cụ thể của GPT-5.2 là gì?

Đầu tiên, đó là "lý thuyết hỗn loạn" của CSS.

Thiết kế bố cục trang web không bao giờ chỉ đơn giản là việc xếp chồng các khối.

Chuẩn CSS chứa đầy những điểm kỳ lạ lịch sử, các quy tắc xếp tầng và logic kế thừa phức tạp.

Một kỹ sư phát triển trình duyệt Firefox trước đây từng sử dụng một phép so sánh: việc triển khai một công cụ CSS hoàn hảo giống như mô phỏng một vũ trụ nơi các định luật vật lý thay đổi tùy ý. Việc thay đổi một thuộc tính của phần tử cha có thể khiến bố cục của hàng nghìn phần tử con sụp đổ ngay lập tức.

Thứ hai, có khái niệm "máy ảo trong máy ảo".

Lần, trí tuệ nhân tạo không chỉ viết giao diện mà còn cả một máy ảo JavaScript.

Các trang web hiện đại chạy mã JavaScript, đòi hỏi quản lý bộ nhớ, thu gom rác (GC) và môi trường bảo mật (sandbox).

Nếu không được xử lý đúng cách, trang web này có thể chiếm hết bộ nhớ của bạn, hoặc thậm chí cho phép hacker vượt qua trình duyệt và chiếm quyền kiểm soát máy tính của bạn.

Điều tệ nhất là nó lại chọn Rust.

Ngôn ngữ Rust nổi tiếng với "độ an toàn tuyệt đối", và trình biên dịch của nó giống như một người kiểm tra cực kỳ khắt khe.

Khi viết logic việc kinh doanh, các kỹ sư thường dành một nửa thời gian để "tranh luận" với trình biên dịch, xử lý các vấn đề về kiểm tra mượn và vòng đời.

Trí tuệ nhân tạo không chỉ cần hiểu về việc kinh doanh mà còn cần có khả năng xử lý hàng triệu dòng mã mà không để lại bất kỳ kẽ hở nào cho sự chỉ trích từ "người kiểm tra".

Việc có thể giải quyết những thách thức khó khăn này trong vòng bảy ngày và khiến chúng hoạt động cùng nhau không còn chỉ đơn thuần là "viết nhanh"; điều đó có nghĩa là máy móc đã bắt đầu sở hữu khả năng kiểm soát kiến trúc cấp cao.

Khi nào trí tuệ nhân tạo có thể "chịu đựng được sự cô đơn"

Nhưng điều gây chấn động thực sự trong câu chuyện này không phải là chính trình duyệt, mà là thông điệp "Không bị gián đoạn" .

Đây là một bước ngoặt quan trọng trong sự phát triển của trí tuệ nhân tạo.

Trước đây, các công cụ lập trình AI mà chúng ta quen thuộc (như Copilot đời đầu) hoạt động như sau: bạn viết tiêu đề hàm, và nó sẽ hoàn thành năm dòng mã; bạn đưa ra một lệnh, và nó sẽ tạo ra một kịch bản.

Trí nhớ của họ rời rạc và khả năng tập trung kém.

Khi nhiệm vụ trở nên phức tạp hơn một chút, chẳng hạn như "tái cấu trúc mô-đun này", họ thường tập trung vào một khía cạnh mà bỏ qua những khía cạnh khác, thay đổi một phần chỉ để làm hỏng phần khác, cuối cùng đòi hỏi ai đó phải dọn dẹp mớ hỗn độn.

Nhưng lần thì khác. Đây là một chiến thắng cho một "nhiệm vụ kéo dài".

3 triệu dòng mã này nằm rải rác trong hàng nghìn tập tin.

Khi trí tuệ nhân tạo viết dòng mã thứ 3 triệu, nó vẫn phải "ghi nhớ" các quy tắc kiến trúc được thiết lập trong dòng mã đầu tiên.

Khi công cụ kết xuất và máy ảo JavaScript xung đột, nó phải có khả năng truy vết hàng chục nghìn dòng mã để tìm ra nguồn gốc của lỗi.

Trong suốt 168 giờ đó, GPT-5.2 chắc hẳn đã chứa một số lỗi.

Nhưng thay vì dừng lại để báo cáo lỗi và chờ người dùng can thiệp, nó đọc nhật ký lỗi, gỡ lỗi, tái tạo lại và sau đó tiếp tục hoạt động.

Chu trình khép kín tự động "ghi-chạy-sửa chữa" này từng là hệ thống bảo vệ mà các kỹ sư chúng ta tự hào nhất.

Hiện tại, hệ thống bảo vệ đã được lấp đầy.

Chúng ta đang chứng kiến một bước nhảy vọt về chất lượng trong trí tuệ nhân tạo, từ "người bạn đồng hành trò chuyện" trở thành "lao động kỹ thuật số".

Trước đây, chúng ta đã hướng dẫn trí tuệ nhân tạo thực hiện các "nhiệm vụ", chẳng hạn như "viết một trò chơi Rắn".

Giờ đây, chúng ta chỉ đạo trí tuệ nhân tạo thực hiện các "dự án", chẳng hạn như "tạo ra một trình duyệt".

Vòng xoáy im lặng

Mặc dù trình duyệt hỗ trợ trí tuệ nhân tạo này vẫn còn một chặng đường dài để đạt đến độ hoàn thiện như Chrome, nhưng nó đã chứng minh được tính khả thi của phương pháp này.

Khi tỷ lệ băm có thể được chuyển hóa thành các khả năng thực thi kỹ thuật cực kỳ phức tạp, chi phí biên của việc phát triển phần mềm sẽ tiến gần đến bằng không.

Điều ấn tượng nhất trong thí nghiệm này không phải là trang web được hiển thị trên màn hình, mà là thanh tiến trình đã âm thầm chạy ngầm trong suốt bảy ngày.

Nó hoạt động không ngừng nghỉ và điềm tĩnh, xây dựng nền tảng của thế giới kỹ thuật số với tốc độ hàng nghìn ký tự mỗi giây.

Có lẽ chúng ta nên xem xét lại định nghĩa về "sự sáng tạo".

Chỉ khi một công cụ bắt đầu tự giải quyết vấn đề trong đêm khuya tĩnh lặng, chúng ta mới nhận ra rằng nó không còn chỉ là một công cụ nữa, mà là một người bạn đồng hành.

Từ "công việc chợ đen mạng" của một người đàn ông Úc đến nhiệm vụ dài hạn của trí tuệ nhân tạo.

Chú chó chăn cừu Úc từng khiến Thung lũng Silicon phát điên chỉ với 5 dòng mã thực chất chỉ làm một việc duy nhất: khiến trí tuệ nhân tạo không ngừng hoạt động cho đến khi đạt được mục tiêu.

Những lệnh được viết trong Prompt.md không phải là vấn đề chính.

Giống như bài kiểm tra độ bền cực cao mà CEO của Cursor đã thực hiện hôm nay, mục tiêu là tạo ra một bản sao của Chrome, một bản sao của Windows và một bản sao của Excel. Chừng nào mục tiêu chưa đạt được, AI sẽ tiếp tục hoạt động. Quay trở lại câu hỏi ban đầu:

Trí tuệ nhân tạo có thể hoạt động độc lập trong bao lâu?

Câu trả lời về mặt vật lý là vô hạn . Miễn là bạn có đủ tỷ lệ băm, cơ sở hạ tầng ổn định và định nghĩa nhiệm vụ rõ ràng, trí tuệ nhân tạo có thể hoạt động vô thời hạn.

Nhưng quan trọng hơn, nó đã thay đổi nền kinh tế của ngành phát triển phần mềm.

Các chi phí chính của phát triển phần mềm truyền thống bao gồm nhân lực và thời gian .

Việc phát triển một dự án phức tạp với một đội ngũ 10 người có thể mất từ sáu tháng đến vài năm. Chi phí nhân sự hàng tháng có thể dao động từ hàng trăm nghìn đến hàng triệu đô la.

Hiện nay, trí tuệ nhân tạo có thể hoàn thành trong một tuần những việc trước đây phải mất hàng tháng .

Chi phí có thể chỉ là một vài khoản phí tượng trưng; Emad Mostaque (cựu CEO của Stability AI) dự đoán rằng dự án trình duyệt Cursor có thể đã tiêu tốn khoảng 3 tỷ token.

Ông ấy còn có một ý tưởng khác: cần bao nhiêu token để viết lại một hệ điều hành cấp độ Windows? Chi phí sẽ là bao nhiêu?

Giá của token đang ngày càng rẻ hơn, giống như nước và điện trước đây; cuối cùng, sức mạnh tính toán dựa trên token cũng sẽ trở nên cực kỳ rẻ.

Kết quả là, nền kinh tế phần mềm sẽ bị Sự lật đổ hoàn toàn. Ví dụ, việc trả tiền cho phần mềm dựa trên giấy phép có thể sẽ biến mất.

Năm 2026, ngành phát triển phần mềm đang trải qua một Đột biến về mặt di truyền.

Trước đây, mã lập trình là sản phẩm của việc con người gõ từng dòng một.

Trong tương lai, mã lập trình có thể đơn giản chỉ là sự tự động hiện thực hóa ý định của con người: bạn mô tả những gì bạn muốn, và trí tuệ nhân tạo có thể biến điều đó thành hiện thực.

Mô hình có thể hoạt động trong bao lâu?

Nó có thể hoạt động liên tục miễn là bạn cần .

Tham khảo:

https://x.com/mntruell/status/2011562190286045552

https://x.com/leerob/status/2011565729838166269

https://cursor.com/cn/blog/scaling-agents

Bài viết này được trích từ tài khoản WeChat chính thức "New Intelligence" , do Ding Hui Allen biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan