Không cần thêm bất kỳ khóa huấn luyện hay tinh chỉnh nào; một hệ thống hỗ trợ đã giúp độ chính xác của GPT-5.2 đạt mức kỷ lục 75%.

Bài viết này được dịch máy
Xem bản gốc

Sao cơ? Giới hạn trên của trí tuệ nhân tạo không còn được xác định bởi mô hình cơ bản nữa, mà bởi "sự điều phối suy luận" ở ngoại vi.

Không cần thay đổi mô hình LLM, một Hệ thống Tác nhân duy nhất có thể làm tăng đáng kể trí thông minh của AI.

Sau khi xem xét đánh giá mới nhất về Poetiq, một công ty khởi nghiệp tập trung vào "hệ thống suy luận và tự cải thiện bằng trí tuệ nhân tạo", một số người đã đi đến kết luận này.

Ảnh chụp màn hình một phần

Mới đây, Poetiq thông báo rằng họ đã chạy GPT-5.2 X-High trên hệ thống của mình (gọi là meta-system) bằng cách sử dụng bộ dữ liệu thử nghiệm ARC-AGI-2 . Bộ dữ liệu thử nghiệm này thường được sử dụng để đo lường hiệu suất của các mô hình hiện đại nhất (SOTA) trên nhiệm vụ suy luận trừu tượng phức tạp.

Kết quả cho thấy rằng trên cùng nền tảng thử nghiệm Poetiq, GPT-5.2 X-High đạt được điểm số 75% trên toàn bộ dữ liệu PUBLIC-EVAL, cao hơn khoảng 15% so với điểm số tiên tiến nhất trước đó (SOTA), trong khi chi phí cho mỗi bài toán chưa đến 8 đô la.

Bài kiểm tra PUBLIC-EVAL ở đây là một phần của bài kiểm tra ARC. Bài kiểm tra PUBLIC-EVAL thường bao gồm nhiệm vụ suy luận cơ bản và các bài kiểm tra suy luận toán học và xử lý ngôn ngữ tự nhiên (NLP) tiêu chuẩn, phù hợp với nhiều loại đánh giá mô hình và có dữ liệu mở và chuẩn hóa hơn. Bài kiểm tra ARC bao gồm các vấn đề suy luận phức tạp và đầy thách thức hơn, nhằm kiểm tra khả năng suy luận trừu tượng, suy luận thông thường và khả năng đổi mới của mô hình. Đây là bài kiểm tra giới hạn suy luận của các mô hình cấp cao.

Hình dưới đây thể hiện sự phân bố hiệu năng của các mô hình tiên tiến (SOTA) khác nhau trên dữ liệu PUBLIC-EVAL:

Poetiq cũng đặc biệt nhấn mạnh rằng họ không thực hiện bất kỳ quá trình huấn luyện lại hay tối ưu hóa mô hình cụ thể nào trên GPT-5.2.

Chỉ trong một thời gian ngắn, GPT-5.2 đã đạt được những cải tiến đáng kể về độ chính xác và giá cả so với các mô hình khác mà Poetiq đã thử nghiệm trước đây trên dữ liệu PUBLIC-EVAL.

Poetiq còn kỳ vọng rằng nếu hiệu suất tốt trong bài kiểm tra ĐÁNH GIÁ CÔNG KHAI có thể được duy trì trong bài kiểm tra BÁN RIÊNG TƯ chính thức của Giải thưởng ARC, thì cấu hình "GPT-5.2 X-High + Poetiq" sẽ mạnh mẽ và tốt hơn bất kỳ cấu hình hệ thống nào trước đây.

Greg Kamradt, chủ tịch của giải thưởng ARC, cho biết: "Thật tuyệt khi thấy Poetiq công bố kết quả cho GPT-5.2 X-High. Nếu họ có thể duy trì hiệu suất này, hệ thống của họ dường như có thể xử lý việc hoán đổi mô hình rất tốt. Tuy nhiên, kết quả chưa được xác thực hoàn toàn cho đến khi các vấn đề về cơ sở hạ tầng của API OpenAI được giải quyết."

Việc chuyển đổi mô hình ở đây đề cập đến việc hệ thống chuyển đổi giữa các mô hình khác nhau để đáp ứng các yêu cầu nhiệm vụ khác nhau mà không cần điều chỉnh quy mô lớn hoặc đào tạo lại hệ thống hoặc mô hình .

Chủ tịch OpenAI, Greg Brockman, cũng đã đăng lại dòng tweet này, nói rằng: GPT-5.2 vượt qua hiệu suất chuẩn của con người trên ARC-AGI-2.

Phần bình luận đã đặt ra thêm nhiều câu hỏi về kết quả kiểm tra mới, chẳng hạn như "Trung bình mỗi nhiệm vụ mất bao lâu?"

Poetiq trả lời: "Hiện tại chúng tôi không thu thập cụ thể dữ liệu này. Những câu hỏi đơn giản nhất có thể hoàn thành trong khoảng 8 đến 10 phút, trong khi những câu hỏi khó nhất phải được hoàn thành trong vòng 12 giờ để không vượt quá thời gian quy định. Vì vậy, chắc chắn vẫn còn chỗ để cải thiện trong tương lai."

Những người khác đã chỉ ra rằng "hầu hết các cải tiến dường như đến từ khung kiểm thử và cơ chế phối hợp, chứ không phải từ bất kỳ sự tinh chỉnh cụ thể nào của mô hình. Nếu không có thay đổi nào trong quá trình huấn luyện, sự cải thiện trên ARC-AGI-2 chỉ khoảng 15%, cho thấy vẫn còn rất nhiều chỗ để cải thiện trong logic tìm kiếm, định tuyến và kết thúc."

Câu hỏi đặt ra là: tại sao X-High lại có chi phí mỗi nhiệm vụ thấp hơn High trong cấu hình này? Có phải vì nó hội tụ nhanh hơn bằng cách tìm ra giải pháp chính xác sớm hơn, hay vì khung kiểm thử loại bỏ các quy trình suy luận không hợp lệ một cách mạnh mẽ hơn?

Về câu hỏi này, Poetiq khẳng định quan điểm rằng "X-High đơn giản là hội tụ về câu trả lời đúng nhanh hơn High".

Đội ngũ gồm 6 người đã xây dựng hệ thống Meta.

Poetiq là một đội ngũ gồm sáu nhà nghiên cứu và kỹ sư, với một số thành viên chủ chốt đến từ Google DeepMind.

Ian Fischer (Đồng sáng lập & Đồng Giám đốc điều hành): Trước đây là nhà nghiên cứu cấp cao tại Google DeepMind;

Shumeet Baluja (Đồng sáng lập & Đồng CEO): Một chuyên gia cấp cao từng làm việc tại Google/DeepMind.

Chìa khóa thành công của Poetiq nằm ở hệ thống siêu cấp của nó.

Hệ thống meta không phụ thuộc vào các mô hình lớn cụ thể và có thể được sử dụng với bất kỳ mô hình tiên tiến nào (như Gemini 3, GPT-5.1, Grok, v.v.) thay vì huấn luyện hoặc tinh chỉnh chính mô hình đó. Điều này có nghĩa là nó có thể nhanh chóng thích ứng và cải thiện hiệu suất khi các mô hình mới được phát hành.

Hệ thống siêu nhận thức Poetiq xây dựng một quy trình suy luận lặp đi lặp lại, khác với phương pháp tạo câu trả lời một lần truyền thống, và có hai cơ chế chính:

Vòng lặp giải quyết vấn đề lặp đi lặp lại: Hệ thống không chỉ đưa ra vấn đề cho mô hình một lần duy nhất, mà thay vào đó sử dụng Mô hình Ngôn ngữ Lớn (LLM) để tạo ra một giải pháp tiềm năng, sau đó nhận và phân tích phản hồi, và gọi lại LLM để cải thiện giải pháp. Quá trình tự cải tiến nhiều bước này cho phép hệ thống dần dần xây dựng và liên tục hoàn thiện câu trả lời cuối cùng.

Tự kiểm toán: Hệ thống có thể tự động kiểm toán tiến trình của chính nó và xác định khi nào đã thu thập đủ thông tin và liệu giải pháp hiện tại có đạt yêu cầu hay không, từ đó quyết định kết thúc toàn bộ quy trình. Cơ chế tự giám sát này rất quan trọng để tránh lãng phí tài nguyên tính toán không cần thiết và giảm chi phí tổng thể một cách hiệu quả.

Poetiq cũng nhấn mạnh rằng tất cả công việc thích ứng hệ thống meta của họ đã được hoàn thành trước khi mô hình mới được phát hành, và hệ thống chưa bao giờ trực tiếp sử dụng bộ nhiệm vụ ARC-AGI, nhưng vẫn đạt được những cải tiến về hiệu suất giữa các phiên bản và giữa các họ mô hình khác nhau, cho thấy hệ thống meta có khả năng khái quát hóa tốt đối với các chiến lược suy luận.

Chính kiến ​​trúc linh hoạt, mạnh mẽ và có khả năng đệ quy này đã cho phép một đội ngũ nhỏ như Poetiq đạt được sê-ri kết quả tiên tiến nhất (SOTA) trong thời gian rất ngắn.

Về hệ thống siêu cấp này, một số người cho rằng,"Nó thật tuyệt vời. Việc xây dựng trí tuệ dựa trên mô hình, thay vì bên trong mô hình, có nghĩa là các mô hình mới có thể được điều chỉnh chỉ trong vài giờ, điều này thật xuất sắc. Việc thích ứng với các mô hình mã nguồn mở và chuyển đổi thành công sang các mô hình đóng mới cho thấy những gì đã được nắm bắt là quy luật cơ bản của chính quá trình suy luận, chứ không phải là những đặc điểm riêng của mô hình."

Liên kết tham khảo: https://poetiq.ai/posts/arcagi_verified/

Bài viết này được trích từ tài khoản WeChat công cộng "Machine Heart" , do Du Wei và Chen Chen biên tập, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận