Bài viết này được dịch máy
Xem bản gốc
Anthropic đã chi 20.000 đô la (Claude Opus 4.6) để chỉ đạo đội ngũ Agent xây dựng một trình biên dịch Rust có khả năng biên dịch nhân Linux. Điều này cho thấy lập trình AI đã vượt ra ngoài phạm vi của các công cụ hỗ trợ và có khả năng thay thế đội ngũ giàu kinh nghiệm trong việc xây dựng các hệ thống phức tạp với chi phí cực thấp.
Nếu một đội ngũ nhân viên thực hiện dự án kỹ thuật như vậy từ đầu, thời gian thường sẽ được tính bằng năm. Thí nghiệm này đã trực tiếp thiết lập một tiêu chuẩn mới cho khả năng của Coding Agent trong việc xử lý nhiệm vụ phức tạp và liên kết chặt chẽ.
Tuy nhiên, kỳ tích kỹ thuật này không chỉ dựa vào khả năng lập trình của chính mô hình; cốt lõi của nó nằm ở việc tích hợp quá trình "viết mã" vào một hệ thống kiểm thử tự động và CI/CD nghiêm ngặt.
Để đảm bảo hệ thống hoạt động hiệu quả, thí nghiệm đã sử dụng GCC như một "oracle" để xác định lỗi bằng cách so sánh với đầu ra chuẩn, chuyển đổi thách thức sáng tạo mở thành một nhiệm vụ xác minh khép kín.
Cùng với sự xác thực bên ngoài này, việc lựa chọn Rust tạo thành một ràng buộc nội bộ, sử dụng hệ thống kiểu nghiêm ngặt của nó để ngăn chặn lỗi trong giai đoạn biên dịch và bù đắp cho sự không ổn định của mã được tạo ra từ mô hình.
Chính dựa trên sự đảm bảo kép "so sánh bên ngoài + ràng buộc nội bộ" này mà LLM có thể huy động lượng kiến thức khổng lồ về trình biên dịch được tích lũy trong giai đoạn đào tạo trước đó và hoàn thành việc tái cấu trúc trên nền tảng trí tuệ của toàn nhân loại.
Điều này không chỉ chứng minh năng lực mà còn cho thấy cấu trúc chi phí của kỹ thuật phần mềm đang trải qua một sự thay đổi không thể đảo ngược: chi phí biên để triển khai các chi tiết đang tiến gần đến con số không.
Khi việc tạo mã trở nên rẻ và phổ biến rộng rãi, trọng tâm của chúng ta sẽ buộc phải chuyển từ "sự thanh lịch về mặt logic" sang "tính đầy đủ của việc xác thực".
Các sản phẩm phần mềm trong tương lai có thể không còn là những dòng mã khó bảo trì đối với con người, mà là các chiến lược định hướng nhanh chóng và các bộ kiểm thử xác định phạm vi hoạt động.
Có lẽ một ngày nào đó, đơn vị đo lường khối lượng công việc phát triển phần mềm sẽ không còn là "tháng công" truyền thống nữa, mà thay vào đó là "mức tiêu thụ token" và "độ phức tạp của yêu cầu".
Xem thêm quan điểm 👇
Suy nghĩ sau khi đọc bài này: Trải nghiệm chuyển hướng đến các liên kết ngoài giờ tốt hơn nhiều rồi! 😂
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




