ChatGPT và Claude vừa có những bản cập nhật lớn cùng lúc; những ai không thể làm sếp cho AI sẽ bị loại bỏ.

Bài viết này được dịch máy
Xem bản gốc

Mới đây, một "vụ va chạm giữa sao Hỏa và Trái Đất" đã xảy ra trong giới trí tuệ nhân tạo ở Thung lũng Silicon.

Như thể đã được sắp xếp từ trước, OpenAI và Anthropic đồng thời phát hành các bản cập nhật lớn của họ: Claude Opus 4.6 và GPT-5.3-Codex.

Nếu trước tối qua chúng ta còn bàn về cách viết những lời nhắc nhở hữu ích để hỗ trợ công việc, thì sau hôm nay có lẽ chúng ta cần học cách quản lý các nhân viên AI như những ông chủ.

Trí tuệ nhân tạo (AI) tạo ra AI, và vô tình chiếm quyền điều khiển máy tính của bạn.

Mới hôm qua, Sam Altman đã đạt được cột mốc "một triệu người dùng hoạt động" của Codex trên nền tảng X. Chỉ một ngày sau, OpenAI tiếp tục gây chấn động với một thông tin khác—

GPT-5.3-Codex.

Tài liệu kỹ thuật chứa một tuyên bố rất quan trọng: "Đây là mô hình đầu tiên đóng vai trò then chốt trong quá trình sáng tạo của chính chúng tôi."

Nói một cách đơn giản, điều này có nghĩa là trí tuệ nhân tạo (AI) đã học cách tự viết mã, tự tìm lỗi và thậm chí bắt đầu đào tạo thế hệ AI tiếp theo. Khả năng tự tiến hóa này được phản ánh trực tiếp trong một loạt dữ liệu chuẩn.

Bạn còn nhớ bài kiểm tra chuẩn OSWorld-Verified mô phỏng hoạt động của máy tính do con người thực hiện không? Mô hình trước đó chỉ đạt độ chính xác 38,2%, suýt soát đạt yêu cầu. Nhưng lần, GPT-5.3-Codex đã vươn lên 64,7%.

Điều đáng chú ý là trình độ trung bình của con người chỉ đạt 72%. Điều này có nghĩa là trí tuệ nhân tạo (AI) chỉ còn cách việc thành thạo như bạn trong việc sử dụng chuột, chuyển đổi màn hình và vận hành phần mềm một khoảng cách rất nhỏ.

Trong Terminal-Bench 2.0 (bài kiểm tra hiệu năng hoạt động trên dòng lệnh), nó đạt được điểm số cao 77,3%, vượt xa GPT-5.2 (62,2%).

Trong bài kiểm tra hiệu năng SWE-Bench Pro, bao gồm bốn ngôn ngữ lập trình, không chỉ có khả năng chống nhiễu mà còn giải quyết được những thách thức kỹ thuật thực tế khó khăn, GPT-5.3-Codex cũng đã chứng minh hiệu năng vượt trội, sử dụng ít token hơn bất kỳ mô hình nào trước đây.

OpenAI thậm chí đã chứng minh khả năng tự xây dựng hệ thống của mình:

Chỉ trong vài ngày, họ đã xây dựng được một trò chơi đua xe phiên bản 2 với nhiều bản đồ từ đầu, và cũng đã tạo ra được một trò chơi lặn biển sâu có hệ thống quản lý oxy.

Điều gây ấn tượng nhất với tôi là sự hiểu biết của GPT-5.3-Codex về ý định mơ hồ.

Khi xây dựng trang đích, hệ thống tự động chuyển đổi gói hàng năm thành giá ưu đãi hàng tháng, và thậm chí còn chu đáo thêm cả băng chuyền đánh giá của người dùng — tất cả mà không cần bạn phải đưa ra bất kỳ hướng dẫn nào.

Tham vọng của OpenAI thể hiện rõ ràng: Microsoft từng nói rằng AI sẽ trở thành người bạn đồng hành của con người, nhưng giờ đây AI muốn trở thành người lái xe, có thể điều khiển vô lăng và thậm chí tự sửa chữa xe.

À, và còn một chi tiết thú vị nữa.

Trước đây, có nhiều tin đồn cho rằng OpenAI có những lo ngại về chip AI của NVIDIA, nhưng lần, blog chính thức thức đã nhấn mạnh rằng việc thiết kế, huấn luyện và triển khai GPT-5.3-Codex đều được hoàn thành trên hệ thống NVIDIA GB200 NVL72.

Lời cảm ơn chân thành "cảm ơn Nvidia" đầy nhiệt huyết này thực sự đã giúp Huang Renxun lấy lại được thể diện.

Tạm biệt những "ký ức cá vàng", Claude đã có màn trở lại đầy ngoạn mục.

Cùng thời điểm phát hành GPT-5.3-Codex, Anthropic cũng giới thiệu gói quà tặng Tết Nguyên đán của riêng mình.

Tin buồn là mẫu Claude Sonnet "cỡ trung" được mong chờ từ lâu vẫn chưa được cập nhật; nhưng tin vui là Anthropic đã trực tiếp giới thiệu phiên bản "cỡ lớn" – Claude Opus 4.6.

So với cách tiếp động lực quyết liệt của OpenAI, Claude Opus 4.6 của Anthropic, được phát hành hôm nay, tập trung vào tư duy phản biện và độ tin cậy.

Nhiều người dùng doanh nghiệp gặp phải vấn đề gọi là "Hiện tượng lỗi ngữ cảnh": hệ thống tuyên bố hỗ trợ 200.000 ngữ cảnh, nhưng khi lượng dữ liệu lớn được đưa vào, AI bắt đầu tập trung vào phần đầu mà bỏ qua phần cuối.

Lần, dữ liệu do Claude Opus 4.6 cung cấp thực sự là một "bước ngoặt".

Trong bài kiểm tra MRCR v2 (Tìm kim trong đống rơm với văn bản dài), Claude Opus 4.6 đạt tỷ lệ thu hồi là 76%.

Ngược lại, thế hệ trước Sonnet 4.5 có tỷ lệ lỗi thấp đến mức đáng thất vọng là 18,5%. Có thể nói, điều này thể hiện một bước tiến vượt bậc về chất lượng, từ chỗ gần như không thể sử dụng được trở thành một sản phẩm có độ tin cậy cao.

Điều này là do Claude Opus 4.6 lần đầu tiên giới thiệu cửa sổ ngữ cảnh 1M thực sự hữu dụng.

Điều này có nghĩa là gì? Điều đó có nghĩa là bạn có thể đưa trực tiếp hàng trăm trang báo cáo tài chính hoặc hàng trăm nghìn từ mã lập trình vào đó, và nó không chỉ có thể đọc được tất cả mà còn cho bạn biết chính xác rằng có vấn đề với con số trong chú thích ở trang 342.

Hơn nữa, giờ đây nó hỗ trợ đầu ra token lên đến 128k. Điều đó có nghĩa là gì? Điều đó có nghĩa là bạn có thể cho nó viết một báo cáo nghiên cứu dài hoặc một đoạn mã phức tạp cùng một lúc, mà không bị buộc phải cắt ngắn do giới hạn từ ngữ.

Bên cạnh khả năng ghi nhớ tốt, Opus 4.6 lần giành được chiến thắng áp đảo về mặt trí thông minh:

Trong GDPval-AA (một đánh giá dành cho nhiệm vụ có giá trị kinh tế cao như tài chính và luật), điểm Elo của Opus 4.6 cao hơn tới 144 điểm so với sản phẩm tốt thứ hai trong ngành (GPT-5.2 của OpenAI) và cao hơn tới 190 điểm so với phiên bản tiền nhiệm của nó.

Trong bài kiểm tra tư duy đa ngành phức tạp mang tên "Kỳ thi cuối cùng của nhân loại", nó vượt trội hơn tất cả các mô hình tiên tiến khác.

Nó cũng đạt kết quả tốt nhất trong BrowseComp, một bài kiểm tra khả năng tìm kiếm "thông tin khó tìm" trên internet.

Thông qua dữ liệu này, Anthropic dường như đang gửi một thông điệp: nếu bạn cần viết mã, hãy đến OpenAI bên cạnh; còn nếu bạn cần xử lý các quyết định kinh doanh phức tạp, tài liệu pháp lý hoặc phân tích tài chính, Claude là lựa chọn duy nhất.

Điều thực sự thu hút sự chú ý của người lao động chính là chức năng tăng năng suất của nó.

Một mặt, Anthropic hiện đã tích hợp trực tiếp Claude vào Excel và PowerPoint. Nó có thể tạo ra các bản trình chiếu PowerPoint trực tiếp từ dữ liệu Excel, không chỉ giữ nguyên kiểu bố cục mà còn cả việc căn chỉnh phông chữ và mẫu. Trong hoàn cảnh cộng tác Claude Cowork, nó thậm chí có thể thực hiện nhiệm vụ tự động.

Mặt khác, Anthropic đã tận dụng cơ hội để ra mắt tính năng Đội Đặc Vụ thử nghiệm trong Claude Code, cho phép các nhà phát triển thông thường trải nghiệm cảm giác "chỉ huy hàng ngàn binh lính":

Phân chia nhân vật: Bạn có thể chỉ định một Phiên Claude làm Trưởng nhóm, người này không làm những công việc khó nhọc mà chỉ chịu trách nhiệm phân chia nhiệm vụ, giao lệnh công việc và hợp nhất mã; các Phiên khác là đồng đội, mỗi người đảm nhận nhiệm vụ cần thực hiện.

Hoạt động độc lập: Mỗi thành viên trong nhóm có một cửa sổ ngữ cảnh độc lập (không cần lo lắng về việc tràn bộ nhớ), và họ thậm chí có thể gửi tin nhắn cho nhau mà bạn không hề hay biết (nhắn tin giữa các tác nhân) để thảo luận các chi tiết kỹ thuật, và cuối cùng chỉ báo cáo kết quả cho trưởng nhóm.

Đua ngựa song song: Ứng dụng của phương pháp này là gì? Hãy tưởng tượng việc kiểm tra một lỗi khó phát hiện. Bạn có thể tạo ra 5 tác nhân để xác minh 5 giả thuyết khác nhau, giống như một "cuộc đua ngựa" để rà phá bom mìn song song; hoặc trong quá trình xem xét mã, bạn có thể cử một thành viên nhóm đóng vai trò "chuyên gia bảo mật" để kiểm tra các lỗ hổng, và một người khác đóng vai trò "kiến trúc sư" để kiểm tra hiệu năng, mà không gây cản trở lẫn nhau.

Để chứng minh những hạn chế của Opus 4.6, nhà nghiên cứu Nicholas Carlini của Anthropic đã thực hiện một thí nghiệm điên rồ: Đội Ngũ Đặc Vụ.

Thay vì tự viết mã, ông đã chi ra 20.000 đô la tiền tín dụng API, cho phép 16 người dùng Claude Opus 4.6 thành lập một "đội ngũ phát triển phần mềm hoàn toàn tự động".

Chỉ trong hai tuần, nhóm trí tuệ nhân tạo này đã tự động thực hiện hơn 2.000 phiên lập trình và viết một trình biên dịch ngôn ngữ C (dựa trên Rust) với 100.000 dòng mã từ đầu.

Trình biên dịch do AI viết này cũng đã biên dịch thành công nhân Linux 6.9 (bao gồm các kiến ​​trúc x86, ARM và RISC-V) và thậm chí còn chạy được trò chơi Doom.

Mặc dù không hoàn hảo (ví dụ, mã được tạo ra không hiệu quả bằng GCC), trường hợp này chứng minh rằng chúng ta không còn lập trình cùng với AI nữa, mà đang chứng kiến ​​một đội ngũ AI tự động cộng tác, gỡ lỗi và phát triển dự án.

Ngoài ra, nó còn học được khả năng Tư duy Thích ứng, cho phép nó tự quyết định "thời gian suy nghĩ" dựa trên mức độ khó. Với việc bổ sung tính năng "cường độ thông minh" mới, bạn có thể chuyển đổi giữa bốn cấp độ, từ Thấp đến Tối đa.

Về giá cả, Anthropic lần khá hào phóng, duy trì mức giá cơ bản là 5 USD/25 USD cho mỗi triệu token. Có vẻ như họ quyết tâm cạnh tranh trực tiếp với OpenAI trên thị trường doanh nghiệp.

Một người là thiên tài cấp tiến, người kia là một con bò già đáng tin cậy.

Chuyên gia đánh giá AI có tiếng Dan Shipper đã tiến hành một bài kiểm tra mù (Vibe Check) ngay lập tức, và đánh giá của ông ấy chính xác đến kinh ngạc:

Claude Opus 4.6 có đặc điểm là "Trần cao, độ biến thiên cao".

Nó giống như một thiên tài xuất chúng nhưng đôi khi hơi lập dị. Trong quá trình thử nghiệm, nó đã trực tiếp giải quyết một vấn đề về tính năng mà đội ngũ iOS đã bó tay suốt hai tháng; nó đạt điểm số cao 9,25/10 trong bài kiểm tra LFG Benchmark.

Nhưng đôi khi nó cũng có thể "quá tự tin", nói những điều vô nghĩa với vẻ mặt nghiêm túc. Nếu bạn cần một nguồn cảm hứng đột phá, hãy chọn nó.

Bộ luật GPT-5.3-Codex có đặc điểm là "Độ tin cậy cao, Độ sai lệch thấp".

Nó giống như một kỹ sư dày dạn kinh nghiệm, đáng tin cậy, không bao giờ làm bạn thất vọng. Tốc độ suy luận được cải thiện 25%, hầu như không mắc lỗi cơ bản nào và độ ổn định của nó rất đáng tin cậy.

Mặc dù hiệu năng hơi kém hơn trong nhiệm vụ sáng tạo (điểm LFG 7.5/10), nhưng nó lại là công cụ làm việc hiệu quả nhất trong nhiệm vụ lập trình và bảo trì hàng ngày.

Dĩ nhiên, điều quan trọng hơn việc lựa chọn mô hình nào để sử dụng là khi ChatGPT có thể sửa lỗi và thậm chí vận hành thiết bị đầu cuối của bạn một cách tự động, và khi Claude có thể xử lý lượng lớn tài liệu cùng một lúc và định vị chính xác các chi tiết, thì tầm quan trọng của Kỹ thuật xử lý yêu cầu (Prompt Engineering) đang giảm, trong khi khả năng quản lý tác nhân (Agent Management) đang bắt đầu nổi lên.

Chúng ta không còn cần phải chia nhỏ hướng dẫn thành từng chi tiết nhỏ như khi dạy học sinh tiểu học nữa. Thay vào đó, chúng ta cần học cách xác định mục tiêu, đánh giá kết quả và quyết định khi nào và bằng cách nào giao nhiệm vụ nào cho nhân viên AI nào, đóng vai trò như một người quản lý.

Đây là môi trường làm việc mới vào năm 2026. Đội ngũ của bạn bị xâm nhập bởi một nhóm thiên tài dựa trên silicon, và bạn là ông chủ duy nhất dựa trên carbon.

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do Discover Tomorrow's Products biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận