Tác giả: Tán Tử Hân,Công nghệ hàng đầu

Nguồn ảnh: Được tạo bởi AI vô biên
Các mô hình ngôn ngữ lớn (LLM) đang thay đổi cách phát triển phần mềm, liệu AI có thể thay thế lập trình viên con người trên diện rộng hay không đang trở thành một chủ đề được ngành quan tâm.
Trong vòng hai năm qua, các mô hình AI lớn đã phát triển từ giải quyết các vấn đề khoa học máy tính cơ bản đến cạnh tranh với các cao thủ lập trình quốc tế, ví dụ như OpenAI o1 đã tham gia Kỳ thi Olympic Tin học Quốc tế (IOI) 2024 trong cùng điều kiện với các thí sinh con người và giành huy chương vàng, thể hiện tiềm năng lập trình mạnh mẽ.
Đồng thời, tốc độ lặp của AI cũng đang tăng lên. Trên thước đo đánh giá sinh ra mã SWE-Bench Verified, điểm số của GPT-4o vào tháng 8/2024 là 33%, nhưng đến mô hình thế hệ mới o3 đã tăng gấp đôi lên 72%.

Để đánh giá năng lực kỹ sư phần mềm của các mô hình AI trong thực tế, hôm nay, OpenAI đã công bố một tiêu chuẩn đánh giá mới SWE-Lancer, lần đầu tiên liên kết hiệu suất của mô hình với giá trị tiền tệ.
SWE-Lancer là một bộ kiểm tra chuẩn bao gồm hơn 1.400 nhiệm vụ kỹ sư phần mềm tự do từ nền tảng Upwork, tổng giá trị thực tế của các nhiệm vụ này khoảng 1 triệu USD, AI có thể kiếm được bao nhiêu tiền bằng cách lập trình?
Những "đặc điểm" của tiêu chuẩn mới
Các nhiệm vụ trong bộ kiểm tra SWE-Lancer phản ánh giá trị thị trường thực tế, nhiệm vụ càng khó, thù lao càng cao.
Bao gồm cả các nhiệm vụ kỹ sư độc lập và nhiệm vụ quản lý, có thể lựa chọn giữa các phương án triển khai kỹ thuật, tiêu chuẩn này không chỉ dành cho lập trình viên mà còn cho cả nhóm phát triển, bao gồm cả kiến trúc sư và quản lý.

So với các tiêu chuẩn kiểm tra kỹ sư phần mềm trước đây, SWE-Lancer có nhiều ưu điểm, chẳng hạn như:
1. Tất cả 1.488 nhiệm vụ đều đại diện cho mức thù lao thực tế mà các chủ lao động trả cho các nhà thầu tự do, cung cấp một bậc thang độ khó tự nhiên do thị trường quyết định, thù lao từ 250 USD đến 32.000 USD, khá đáng kể.
Trong đó, 35% nhiệm vụ có giá trị trên 1.000 USD, 34% nhiệm vụ có giá trị từ 500 USD đến 1.000 USD. Nhóm nhiệm vụ kỹ sư phần mềm (SWE) của các cá nhân đóng góp (IC) bao gồm 764 nhiệm vụ, tổng giá trị 414.775 USD; Nhóm nhiệm vụ quản lý SWE bao gồm 724 nhiệm vụ, tổng giá trị 585.225 USD.
2. Trong kỹ sư phần mềm quy mô lớn trong thực tế, không chỉ cần khả năng viết mã cụ thể mà còn cần có khả năng quản lý kỹ thuật tổng thể, bộ kiểm tra chuẩn này sử dụng dữ liệu thực tế để đánh giá mô hình trong vai trò "quản lý kỹ thuật SWE".

3. Có khả năng đánh giá kỹ sư toàn stack cấp cao. SWE-Lancer đại diện cho kỹ sư phần mềm trong thực tế, vì các nhiệm vụ đến từ một nền tảng có hàng triệu người dùng thực.
Các nhiệm vụ bao gồm phát triển kỹ sư di động và web, tương tác với API, trình duyệt và ứng dụng bên ngoài, cũng như xác minh và tái hiện các vấn đề phức tạp.
Ví dụ, có nhiệm vụ tốn 250 USD để nâng cao độ tin cậy (sửa lỗi gọi API kép), 1.000 USD để sửa lỗ hổng (giải quyết vấn đề phân quyền) và 16.000 USD để triển khai tính năng mới (thêm hỗ trợ phát video trong ứng dụng trên web, iOS, Android và desktop).
4. Đa dạng về lĩnh vực. 74% nhiệm vụ IC SWE và 76% nhiệm vụ quản lý SWE liên quan đến logic ứng dụng, trong khi 17% nhiệm vụ IC SWE và 18% nhiệm vụ quản lý SWE liên quan đến phát triển UI/UX.
Về độ khó của nhiệm vụ, SWE-Lancer chọn những nhiệm vụ rất thách thức, tập dữ liệu mã nguồn mở trung bình cần 26 ngày để giải quyết trên Github.
Ngoài ra, OpenAI cho biết việc thu thập dữ liệu không thiên vị, họ đã chọn một mẫu đại diện của các nhiệm vụ từ Upwork và thuê 100 kỹ sư phần mềm chuyên nghiệp để viết và xác minh các bài kiểm tra cuối cùng.
So sánh khả năng kiếm tiền bằng lập trình của AI
Mặc dù nhiều lãnh đạo công nghệ liên tục tuyên bố rằng các mô hình AI có thể thay thế các "kỹ sư cấp thấp", nhưng vẫn còn nhiều dấu hỏi lớn về việc liệu các doanh nghiệp có thể hoàn toàn thay thế các kỹ sư phần mềm con người bằng LLM.
Kết quả đánh giá ban đầu cho thấy, trên toàn bộ tập dữ liệu SWE-Lancer, các mô hình AI hàng đầu được kiểm tra hiện vẫn thu về ít hơn nhiều so với tổng tiềm năng 1 triệu USD.

Nhìn chung, tất cả các mô hình đều có hiệu suất tốt hơn trên các nhiệm vụ quản lý SWE so với nhiệm vụ IC SWE, và nhiệm vụ IC SWE vẫn chưa được các mô hình AI giải quyết triệt để, mô hình có kết quả tốt nhất là Claude 3.5 Sonnet do Anthropic, đối thủ của OpenAI, phát triển.
Trên các nhiệm vụ IC SWE, tất cả các mô hình đều có tỷ lệ thành công và thu nhập dưới 30%, trên các nhiệm vụ quản lý SWE, mô hình tốt nhất là Claude 3.5 Sonnet đạt 45%.
Claude 3.5 Sonnet thể hiện hiệu suất mạnh mẽ trên cả nhiệm vụ IC SWE và quản lý SWE, trên nhiệm vụ IC SWE cao hơn 9,7% so với mô hình thứ hai tốt nhất o1, trên nhiệm vụ quản lý SWE cao hơn 3,4%.
Nếu chuyển đổi thành thu nhập, mô hình tốt nhất là Claude 3.5 Sonnet, tổng thu nhập trên toàn bộ tập dữ liệu vượt quá 400.000 USD.

Đáng chú ý là, lượng tính toán suy luận cao hơn sẽ rất hữu ích cho "AI kiếm tiền".
Trên nhiệm vụ IC SWE, các nhà nghiên cứu thực hiện thử nghiệm với mô hình o1 có kích hoạt công cụ suy luận sâu, cho thấy lượng tính toán suy luận cao hơn có thể nâng tỷ lệ thành công từ 9,3% lên 16,5%, thu nhập tương ứng từ 16.000 USD tăng lên 29.000 USD, tỷ suất lợi nhuận từ 6,8% tăng lên 12,1%.
Các nhà nghiên cứu kết luận rằng, mặc dù mô hình tốt nhất Claude 3.5 Sonnet đã giải quyết được 26,2% các vấn đề IC SWE, nhưng hầu hết các giải pháp còn lại vẫn có lỗi, cần nhiều công việc hoàn thiện để có thể triển khai đáng tin cậy. Tiếp theo là o1, sau đó là GPT-4o, và tỷ lệ thành công trên nhiệm vụ quản lý thường cao hơn gấp đôi so với nhiệm vụ IC SWE.
Điều này cũng có nghĩa là, ngay cả khi quan điểm về việc đại lý AI thay thế kỹ sư phần mềm con người được thổi phồng rất lớn, các doanh nghiệp vẫn cần cân nhắc kỹ lưỡng, các mô hình AI có thể giải quyết một số vấn đề "cấp thấp" về lập trình, nhưng vẫn không thể thay thế "kỹ sư phần mềm cấp thấp" vì chúng không thể hiểu được nguyên nhân của một số lỗi mã và tiếp tục mắc phải nhiều lỗi lặp.
Khung đánh giá hiện tại vẫn chưa hỗ trợ đầu vào đa phương thức, ngoài ra, các nhà nghiên cứu cũng chưa đánh giá "tỷ suất lợi nhuận", ví dụ như so sánh chi phí trả cho nhà thầu tự do với chi phí sử dụng API để hoàn thành một nhiệm vụ, đây sẽ là trọng tâm hoàn thiện tiêu chuẩn này trong tương lai.
Trở thành một lập trình viên "được tăng cường bởi AI"
Hiện tại, AI vẫn còn một chặng đường dài để thực sự thay thế được lập trình viên con người, cuối cùng, phát triển một dự án kỹ sư phần mềm không chỉ đơn giản là tạo ra mã theo yêu cầu.
Ví dụ, lập trình viên thường gặp phải các yêu cầu khách hàng r
Về lâu dài, sự tiến bộ của công nghệ AI vẫn tiềm ẩn khả năng thay thế vị trí của các lập trình viên, nhưng trong ngắn hạn, "lập trình viên được tăng cường bởi AI" mới là xu hướng chính, và việc nắm vững việc sử dụng các công cụ AI mới nhất là một trong những kỹ năng cốt lõi của một lập trình viên xuất sắc.




