Vương miện của lĩnh vực mã hóa AI lại một lần nữa được đổi chủ. Genie vượt qua Devin và trở thành "kỹ sư phần mềm AI" mạnh nhất hành tinh. Genie không phải là trợ lý lập trình mà là một "đồng nghiệp" có thể suy nghĩ độc lập và sát cánh cùng bạn chiến đấu.
Không biết bạn còn nhớ “lập trình viên AI” Devin đầu tiên được phát triển bởi Cognition AI, một đội ngũ doanh nhân đạt 10 huy chương vàng IOI và ra mắt tháng 3 năm nay.
Nó được hỗ trợ bởi GPT-4 và có thể nhận hướng dẫn ngôn ngữ tự nhiên dưới dạng văn bản và viết mã một cách độc lập.
Khi mới ra mắt, tuy hiệu quả chưa đủ để thay thế lập trình viên nhưng nó vẫn để lại ấn tượng sâu sắc trong lòng mọi người.
Giờ đây, đã 5 tháng trôi qua, lĩnh vực GenAI “hỗn loạn” đã khác hoàn toàn. GPT-4 không chỉ mở ra mẫu GPT-4o thế hệ tiếp theo, Claude 3.5 Sonnet, Codestral và các mẫu khác mới được phát hành đều có hiệu suất mã hóa tuyệt vời.
Đối thủ trực tiếp của Devin là Genie, một kỹ sư AI độc lập được phát triển bởi công ty khởi nghiệp Cosine.
Báo cáo do Cosine công bố cho thấy ở SWE-Bench, Genie đạt điểm 30,08%, dễ dàng vượt qua Devin với số điểm 13,8%.
Alistair Pullen, đồng sáng lập và Giám đốc điều hành của Cosine, cho biết: "Khả năng của mô hình (Genie) không thể tóm tắt bằng điểm chuẩn: nó được đào tạo ngay từ đầu để suy nghĩ và hành động như một kỹ sư phần mềm con người (SWE). "
Tôi vui mừng chia sẻ với bạn rằng chúng tôi đã tạo ra những kỹ sư phần mềm AI mạnh nhất thế giới, đạt được số điểm 30,08% trên SWE-Bench, vượt qua Amazon và Cognition.
Vì CEO tuyên bố rằng Genie có thể suy nghĩ và hành động giống như một kỹ sư phần mềm con người nên cư dân mạng đã nói đùa: "Ý bạn là nó không thể nói chuyện với phụ nữ và sẽ đổ mồ hôi nếu bạn gọi nó?"
01 Thần đèn là gì? Nó có thể làm gì?
Tương tự như Devin, Genie cũng có thể tự động hoàn thành nhiệm vụ mã hóa khác nhau dưới sự hướng dẫn của các kỹ sư con người, bao gồm sửa lỗi, xây dựng tính năng, tái cấu trúc mã và xác minh mã thông qua thử nghiệm toàn diện.
Ngoài việc chạy tự động, Genie còn có thể cộng tác với người dùng.
Genie hiện vẫn đang trong giai đoạn thử nghiệm nội bộ và bạn có thể đăng ký dùng thử sau khi đăng ký thông tin trên trang web chính thức.
Cosine tuyên bố rằng Genie có thể mô phỏng quá trình nhận thức của các kỹ sư con người.
Pullen giải thích trong bài đăng trên blog: “Ý tưởng của tôi rất đơn giản: hãy để nó quan sát cách các kỹ sư con người hoàn thành công việc của họ và bắt chước quy trình này”.
Mã do Genie tạo ra được lưu trữ trong kho GitHub của người dùng, có nghĩa là Cosine không giữ bản sao và không có bất kỳ rủi ro bảo mật kèm theo nào.
Ngoài ra, nền tảng phần mềm của Cosine đã tích hợp Slack và thông báo hệ thống, nó có thể sử dụng để nhắc nhở người dùng, đặt câu hỏi hoặc đánh dấu các vấn đề giống như đồng nghiệp của con người.
"Genie cũng có thể đặt câu hỏi làm rõ cho người dùng và trả lời các nhận xét/ý kiến về Yêu cầu Kéo mà họ tạo ra."
Pullen nói: “Chúng tôi đang cố gắng làm cho Genie cư xử như một đồng nghiệp, vì vậy, việc mô hình sử dụng kênh của đồng nghiệp là hợp lý nhất”.
Hợp tác với OpenAI và sử dụng GPT-4o mới nhất
Không giống như nhiều mô hình dựa trên các mô hình cơ sở được bổ sung bởi một số công cụ, Genie được phát triển thông qua quy trình độc quyền trong đó gồm các mô hình đào tạo và tinh chỉnh từ OpenAI.
Khi Genie lần đầu tiên được phát triển, nó chỉ có thể được tinh chỉnh dựa trên các mô hình có cửa sổ ngữ cảnh tương đối nhỏ, dao động từ 16-32k token.
Trong quá trình khám phá ban đầu, đội ngũ đã nhận thấy rằng ngay cả khi sử dụng tập dữ liệu lớn hơn 100 triệu mã thông báo, cùng với những ưu điểm của kiến trúc thiết kế và phương pháp nén/chặn khác nhau, nó vẫn bị hạn chế bởi dung lượng thông tin mà mô hình có thể biểu thị ở mức một thời điểm cụ thể. Phương pháp duy nhất là sử dụng mô hình có cửa sổ ngữ cảnh lớn hơn.
May mắn thay, không lâu sau họ đã có được quyền truy cập vào mô hình ngữ cảnh dài của OpenAI, mô hình này đã trở thành một bước đột phá về khả năng của Genie.
Pullen nói với VentureBeat, "Genie (hiện tại) là một biến thể GPT-4o không chung chung và OpenAI cho phép chúng tôi truy cập và sử dụng mô hình của họ để đào tạo như một phần của chương trình thử nghiệm."
“Mô hình này hoạt động tốt đến mức chúng tôi đã chia sẻ những bài học của mình với đội ngũ tinh chỉnh và lãnh đạo kỹ thuật của OpenAI. Đây là một bước ngoặt thực sự đối với chúng tôi vì nó thuyết phục họ dành nguồn lực và sự quan tâm cho công nghệ mới của chúng tôi.
Mặc dù Cosine không chỉ định mô hình cụ thể, OpenAI gần đây đã công bố số lượng có hạn của mô hình bối cảnh đầu ra dài GPT-4o. Độ dài đầu ra có thể đạt tới 64k mã thông báo, tăng gấp 16 lần so với 4k ban đầu.
Dữ liệu đào tạo là chìa khóa
Pullen đã viết trong báo cáo kỹ thuật rằng trong các đợt đào tạo gần đây, Genie đã được đào tạo về hàng tỷ dữ liệu mã thông báo, sự kết hợp của dữ liệu đã được chọn để làm cho mô hình có khả năng hoạt động tốt nhất có thể đối với các ngôn ngữ mà người dùng hiện tại quan tâm nhất.
Báo cáo kỹ thuật của Genie liệt kê 15 ngôn ngữ có trong dữ liệu đào tạo. Các ngôn ngữ phổ biến như Java, JS, C, C++, C#, Rust và Python cũng như Scala, Kotlin, Swift, PHP, v.v. được sử dụng phổ biến. cũng được bảo hiểm.
Trong đó , JavaScript, Python, TypeScript và TSX là những ngôn ngữ có chiếm tỷ lệ lớn nhất trong tập dữ liệu , còn lại chiếm tỷ lệ 3%.
Bài đăng trên blog của Cosine cho biết đội ngũ đã dành gần một năm để biên soạn bộ dữ liệu, bao gồm hoạt động phát triển phần mềm lượng lớn từ các kỹ sư thực thụ.
Việc thu thập và sử dụng hiệu quả dữ liệu này là vô cùng khó khăn vì về cơ bản, dữ liệu không tồn tại.
Đường dẫn dữ liệu của họ bắt đầu bằng cách theo dõi quỹ đạo phát triển của các kỹ sư phần mềm, thu thập các yêu cầu kéo, cam kết, sự cố từ kho lưu trữ OSS (giấy phép MIT) và dữ liệu khác.
Dữ liệu này sau đó được chạy qua một hệ thống để rút ra quá trình suy luận một cách pháp lý và tái tạo lại cách con người đi đến kết luận cuối cùng.
Chiếm tỷ lệ các loại nhiệm vụ khác nhau trong tập dữ liệu
Dữ liệu độc quyền này là cơ sở để đào tạo phiên bản đầu tiên của mô hình, phần còn lại là quá trình tự chơi và tự cải thiện.
Vòng tự chủ của Genie bao gồm bốn quy trình chính: lập kế hoạch, truy xuất, viết mã và thực thi mã. Bản thân những điều này không có gì mới lạ nhưng được cải thiện ở mức độ cao hơn vì Genie được huấn luyện để thực hiện nhiệm vụ như con người.
"Không thể đánh giá thấp tác động của chú thích dữ liệu. Việc thu thập dữ liệu chất lượng cao từ các kỹ sư phần mềm có năng lực là rất khó, nhưng kết quả đạt được rất đáng giá vì nó cho chúng tôi cái nhìn sâu sắc về cách các nhà phát triển suy nghĩ về việc giải quyết các vấn đề không dễ nhìn thấy."
Bộ dữ liệu này không chỉ thể hiện bối cảnh thông tin hoàn hảo và khả năng khám phá kiến thức tiến bộ mà còn ghi lại quá trình ra quyết định từng bước của các kỹ sư con người.
Pullen khẳng định: “Bằng cách sử dụng dữ liệu này để thực sự huấn luyện mô hình của chúng tôi, thay vì chỉ nhắc nhở mô hình cơ sở (đó là những gì người khác đang làm), chúng tôi nhận thấy rằng chúng tôi không còn chỉ tạo mã ngẫu nhiên mà còn tiếp cận vấn đề như con người.
Kết quả đánh giá
Trong quá trình phát triển mô hình, đội ngũ chủ yếu sử dụng hai điểm chuẩn để đánh giá-SWE-Bench và HumanEval.
Phần trước đề cập đến các vấn đề toàn diện hơn, bao gồm phân tách vấn đề, tìm mã liên quan, phân loại mã và triển khai các giải pháp khả thi; phần sau tập trung nhiều hơn vào việc viết mã, không có khía cạnh truy xuất và ít chú trọng hơn đến việc hiểu vấn đề.
Tuy nhiên, chỉ có điểm số SWE-Bench được tiết lộ trên blog chính thức, trong đó Genie đạt 30,08% và SWE-Lite đạt 50,67%.
Trong đó, thành tích của Genie ở SWE-Bench rất ấn tượng: đây là số điểm cao nhất từ trước đến nay, tăng hơn 10% so với vị trí thứ 2 là 19,27%.
Ngoài ra, đội ngũ đã kiểm tra độc lập khả năng truy xuất thông tin của mô hình, đặc biệt là khả năng truy xuất đúng phần của tệp mã được yêu cầu.
Đây là một trong những thành phần cốt lõi của kỹ sư AI—nếu mô hình không thể tìm được mã phù hợp để chỉnh sửa một cách đáng tin cậy và thành thạo thì khả năng chỉnh sửa mã sẽ không thể được khai thác triệt để.
Giả sử rằng mô hình lần tìm thấy mã chính xác, thước đo đơn giản về khả năng truy xuất có thể là xem mô hình đã tìm thấy bao nhiêu dòng mã để hoàn thành nhiệm vụ và bao nhiêu dòng mã mà nó thực sự tìm thấy.
Trong thử nghiệm, Genie đã truy xuất thành công 91.475 dòng mã cần thiết trong tổng số 142.338 dòng, với số điểm là 64,27%. Rõ ràng ở đây còn rất nhiều chỗ cần cải thiện, và so với khả năng phân rã vấn đề thì khả năng truy xuất là một khía cạnh ít được chú ý hơn.
02 Được hỗ trợ bởi YC, được dẫn dắt bởi bằng thạc sĩ Oxford của Trung Quốc
Cosine được thành lập thông qua accelerator khởi nghiệp Y Combinator nổi tiếng của Thung lũng Silicon.
Công ty là một phòng thí nghiệm lý luận của con người tập trung vào nghiên cứu và quản lý cách con người thực hiện nhiệm vụ, với mục tiêu dạy trí tuệ nhân tạo cách bắt chước, thực hiện xuất sắc và mở rộng nhiệm vụ đó.
Năm 2022, Alistair Pullen, Sam Stenner và Yang Li đồng sáng lập Cosine, định vị nó là phòng thí nghiệm lý luận của con người.
Họ hy vọng có thể bắt đầu từ lĩnh vực công nghệ phần mềm để nghiên cứu và tổ chức cách con người thực hiện nhiệm vụ, nhằm dạy AI bắt chước, thực hiện xuất sắc và mở rộng nhiệm vụ này cũng như thúc đẩy sự phát triển trí thông minh.
Cosine đã huy động được 2,5 triệu đô la Mỹ từ nguồn tài trợ ban đầu từ Uphonest và SOMA Capital, cùng với Lakestar, Focal và các công ty khác cũng tham gia đầu tư.
Với một đội ngũ nhỏ nhưng có tay nghề cao, Cosine đã có những bước tiến vượt bậc trong lĩnh vực trí tuệ nhân tạo và Genie chỉ là khởi đầu.
Pullen cho biết trong một bài đăng trên blog: “Chúng tôi thực sự tin rằng chúng tôi có thể tái tạo lại lý luận của con người cho bất kỳ công việc và ngành nghề nào”.
"Kỹ thuật phần mềm chỉ là điểm khởi đầu trực quan nhất và chúng tôi rất nóng lòng muốn cho mọi người thấy chúng tôi đang làm việc."
Điều đáng nói là trong đội ngũ sáng lập có một gương mặt người Trung Quốc là Yang Li.
Li tốt nghiệp Khoa Xã hội học của Đại học Oxford và được vinh danh là một trong 30 người dưới 30 tuổi của Forbes vào năm 2021.
Trước khi thành lập Cosine, ông đã có 6 kinh nghiệm làm việc/kinh doanh, trong đó giám đốc thương mại mảng việc kinh doanh xe đạp của Meituan Mobike.
Có thể thấy, trước năm 2022, Yang Li sẽ tiếp tục khám phá những cơ hội mới trong ngành với tần suất mỗi năm một lần.
Hiện tại, hồ sơ Twitter của Yang Li mô tả bản thân như sau: đã trải qua lần lần IPO, lần lần mua lại và 3 kỳ lân.
LẦN đề cập đến tăng trưởng số lượng người dùng hoạt động hàng tháng của Mobike lên 220 triệu, IPO lên tới 55 tỷ USD.
03 Tương lai của thần đèn
Pullen tiết lộ mô hình định giá khả thi cho Genie trong email gửi tới VentureBeat. Trong giai đoạn đầu, giá sản phẩm sẽ được chia thành hai loại:
Một là dành cho cá nhân và đội ngũ nhỏ. Giá cả cạnh tranh so với các công cụ AI hiện có, khoảng 20 USD. Sản phẩm ở cấp độ này sẽ có một số hạn chế về chức năng và cách sử dụng.
Thứ hai là dành cho doanh nghiệp. Với nhiều tính năng hơn, mức sử dụng gần như không giới hạn và khả năng tạo ra một đồng nghiệp AI, chuyên gia mã hóa hoàn hảo. Giá ở mức này sẽ cao hơn.
"Chúng tôi đang theo đuổi giấc mơ, đó là tạo ra một đồng nghiệp có thể thực sự tự động hóa nhiệm vụ lập trình từ đầu đến cuối, không cần can thiệp và có độ tin cậy cao. Genie là bước đầu tiên để hiện thực hóa giấc mơ này", Pullen nói tại Cosine bài đăng trên blog viết.
Sự ra mắt của Genie có ý nghĩa sâu rộng đối với đội ngũ phát triển phần mềm, đặc biệt là đội ngũ đang tìm cách tăng năng suất và giảm thời gian làm việc hàng ngày.
Với khả năng tự động xử lý các thách thức lập trình phức tạp, Genie có khả năng thay đổi cách phân bổ nguồn lực kỹ thuật, cho phép đội ngũ tập trung vào các sáng kiến chiến lược hơn.
Pullen viết: “Ý tưởng rằng nguồn lực kỹ thuật không còn là trở ngại nữa là động lực to lớn đối với tôi, đặc biệt là sau khi thành lập công ty.
Các đồng nghiệp AI có thể nhảy vào một cơ sở mã chưa xác định và giải quyết các vấn đề chưa xác định nhanh hơn con người nhiều lần. Giá trị của nó là hiển nhiên và sẽ có tác động rất lớn đến thế giới.
Cosine có những kế hoạch đầy tham vọng cho sự phát triển trong tương lai của Genie.
"Chúng tôi đang tăng tốc phát triển thông qua Đội ngũ Công nghệ Đổi mới Genie. Mục tiêu chính của chúng tôi là cân bằng các sản phẩm thực tế với nghiên cứu tiên tiến."
- Hoàn thiện bộ dữ liệu để nâng cao khả năng của Genie. Bằng cách mở rộng dữ liệu và giới thiệu các tính năng mới, Genie sẽ thành thạo nhiều ngôn ngữ lập trình hơn và các framework mới nhất để đáp ứng chính xác nhu cầu công việc của các nhà phát triển.
- Mở rộng danh mục mô hình của nó. Bao gồm các mô hình nhỏ cho nhiệm vụ đơn giản và các mô hình lớn hơn có khả năng xử lý các thách thức phức tạp hơn. Việc tận dụng một tập dữ liệu duy nhất sẽ cho phép Cosine chuyển đổi bất kỳ mô hình cơ sở hiện đại nào thành mô hình Genie.
- Mở rộng công việc tới cộng đồng mã nguồn mở . Ví dụ: mở rộng theo ngữ cảnh một mô hình mã nguồn mở hàng đầu và đào tạo trước mô hình đó bằng cách sử dụng dữ liệu khổng lồ.
- Tinh chỉnh Genie với các cơ sở mã cụ thể. Đây là một tính năng dành cho doanh nghiệp giúp Genie hiểu biết hoàn hảo về các cơ sở mã lớn, kế thừa, ngay cả khi những mã đó được viết bằng ngôn ngữ độc quyền hoặc ít phổ biến hơn.
Pullen cho biết khi công ty tiếp tục hoàn thiện Genie, họ sẽ tiếp tục phát hành các bản cập nhật cho khách hàng để tối ưu hóa tương tác với đồng nghiệp nhân tạo này và thu thập phản hồi có giá trị.
Li đã tưởng tượng trên Twitter rằng Cosine nhằm mục đích mã hóa khả năng suy luận của con người và sẽ không còn tình trạng lấy mẫu quá mức hoặc phi công phụ trong tương lai.
Tham khảo:
https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/
https://cosine.sh/blog/genie-Technology-report
https://cosine.sh/blog/state-of-the-art
Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: Xinzhiyuan, 36 Krypton được xuất bản với sự cho phép.