Toàn bộ mạng lưới đang háo hức chờ đợi GPT-5, công trình sau khi chết đội ngũ Super Alignment cung cấp manh mối quan trọng, và Ultraman tuyên bố, "Có rất nhiều điều bất ngờ."

avatar
36kr
08-04
Bài viết này được dịch máy
Xem bản gốc

Gần đây, toàn bộ cộng đồng AI dường như đều tập trung sự chú ý vào GPT-5, với những tiết lộ liên quan lan truyền khắp nơi, nhưng mô hình này vẫn chưa xuất hiện.

Chúng tôi đã đưa tin về bài viết dài về GPT-5 được The Information phát hiện, và Ultraman dường như không thể ngồi yên, anh ấy đã tweet rằng "có rất nhiều điều bất ngờ và đáng để chờ đợi".

Vì vậy, trong khi chờ đợi, chúng ta hãy cùng xem xét một trong những "con át chủ bài" được nghi ngờ của GPT-5 lần: trình xác minh phổ quát .

Theo những người hiểu biết về vấn đề này, OpenAI đã phát triển thứ mà các nhà nghiên cứu gọi là "trình xác minh phổ quát", có thể là công nghệ quan trọng được sử dụng trong GPT-5.

Khái niệm này bắt nguồn từ một bài báo do OpenAI công bố năm ngoái. Bài báo giải quyết vấn đề khi các LLM chỉ tối ưu hóa cho tính chính xác của câu trả lời, các quy trình suy luận của chúng (ví dụ: chuỗi suy nghĩ) trở nên khó hiểu và khó kiểm chứng đối với con người hoặc các mô hình nhỏ, dẫn đến khả năng diễn giải giảm. Tuy nhiên, trong các ứng dụng rủi ro cao, người dùng cần có khả năng xác định nhanh chóng và chính xác tính chính xác của đầu ra mô hình, chứ không chỉ riêng bản thân câu trả lời.

Để đạt được mục đích này, bài báo đề xuất một quy trình kỹ thuật sẵn sàng đưa vào sản xuất, cốt lõi của quy trình này là để một mô hình "xác minh" nhỏ chấm điểm Chuỗi lý luận của mô hình "chứng minh" lớn và đưa thông tin phản hồi trở lại mô hình lớn như một tín hiệu thưởng cho việc cập nhật chiến lược .

Tiêu đề bài báo: Trò chơi Prover-Verifier cải thiện khả năng đọc của kết quả LLM

Địa chỉ bài báo: https://arxiv.org/pdf/2407.13692

Bài báo nêu rõ rằng mô hình xác thực này đủ nhỏ để triển khai ở quy mô lớn và được "thiết kế cho các triển khai GPT trong tương lai".

Bạn có thể tưởng tượng nó như một mô hình có hai "nhân cách" sống trong đó, và chúng tham gia vào một trò chơi liên tục "chiến đấu giữa não trái và não phải":

  • Tính cách Prover (Người chứng minh): Nó đóng nhân vật là người giải quyết vấn đề chủ động. Sau khi hoàn thành một bài toán, nó sẽ cố gắng hết sức để tạo ra một quy trình lý luận chi tiết nhằm thuyết phục mạng lưới "Verifier" nhẹ rằng câu trả lời của nó là chính xác và đáng tin cậy.
  • Sneaky Persona : Cố tình đưa ra những kết luận sai lầm trong lý luận của mình, nhưng bề ngoài vẫn giả vờ là nghiêm ngặt về mặt logic, với mục đích cố gắng đánh lừa chính "người xác minh".

Nghe có vẻ giống GAN (Mạng đối nghịch tạo sinh) phải không?

Bằng cách cho phép mô hình lớn liên tục luân phiên giữa hai nhân vật này, nó học cách viết các giải pháp chặt chẽ hơn về mặt logic và khó bị ngụy tạo hơn. Trong khi đó, mô hình "kiểm chứng" quy mô nhỏ, thông qua việc "lừa dối" và "kiểm chứng" lặp đi lặp lại, ngày càng trở nên tinh tường hơn trong khả năng nhận diện lỗi và đánh dấu lỗ hổng. Lợi ích của phương pháp này là ngay cả khi mô hình vượt xa khả năng của con người trong tương lai, miễn là đầu ra của nó có thể được kiểm chứng bởi mô hình "yếu hơn nhưng đáng tin cậy", thì sự kiểm soát và niềm tin của con người vẫn có thể được duy trì.

Phương pháp đào tạo được đề xuất trong bài báo cho phép mô hình học dần cách đưa ra câu trả lời rõ ràng và có cấu trúc tốt.

Một bài viết trên tạp chí Wired vào tháng 8 năm ngoái tiết lộ rằng khi OpenAI đang tinh chỉnh trợ lý mã GPT-4, nó đã thay thế phản hồi của con người trong một số trường hợp bằng một "nhà phê bình" dựa trên mô hình.

Bài viết đặc biệt chỉ ra rằng hệ thống "sẽ được tích hợp vào quy trình RLHF (học tăng cường dựa trên phản hồi của con người) của các mô hình chính thống trong tương lai".

Một số người nhận xét rằng phương pháp đào tạo người chứng minh-người xác minh không chỉ là một sự tối ưu hóa nhỏ; nó có thể đại diện cho kỷ nguyên phát triển AI tiếp theo. Chúng ta đang chuyển từ "kỷ nguyên mở rộng", nơi hiệu suất được tăng cường bằng cách dựa vào lượng dữ liệu khổng lồ và "tích lũy tài nguyên", sang kỷ nguyên "đột phá kiến trúc", nơi AI hoàn thiện và phát triển thông qua việc thiết kế các cơ chế học tập nội bộ thông minh hơn. Đây có thể là con đường then chốt để vượt qua những nút thắt dữ liệu hiện tại và đạt được trình độ trí tuệ nhân tạo tổng quát cao hơn.

Cần lưu ý rằng bài báo này đến từ đội ngũ Super Alignment của OpenAI. Vào thời điểm bài báo được xuất bản, đội ngũ đã tan rã. Năm ngoái, Synced đã báo cáo chi tiết về bài báo này, vì vậy độc giả quan tâm được khuyến khích xem lại.

Ngoài bài báo, còn có một số tin tức mới về mẫu GPT-5.

Sáng sớm nay, một blogger đã phát hiện ra rằng Perplexity có lỗ hổng cho phép truy cập vào GPT-5 và có hai phiên bản, GPT-5 và 5 Pro, với giới hạn thời gian là 4 giờ.

Anh ấy đã giới thiệu những chú Minion mà anh ấy tạo ra bằng GPT-5 và các hiệu ứng động trông rất mượt mà.

Anh ấy cũng làm một đoạn clip trò chơi tương tự như Doom (trò chơi FPS), trông cũng rất chân thực.

Cư dân mạng bày tỏ sự "sốc" và cho rằng đây có thể là một "kỷ nguyên mới" do AI tạo ra.

Trong mọi trường hợp, kỳ vọng của mọi người dành cho GPT-5 đều rất cao!

Bạn nghĩ GPT-5 sẽ trông như thế nào?

Liên kết tham khảo:

https://x.com/rohanpaul_ai/status/1951400750187209181

https://x.com/chetaslua/status/1951758235272401030

Bài viết này được trích từ tài khoản công khai WeChat "Machine Heart" (ID: almosthuman2014) , tác giả: Machine Heart và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận