Báo cáo kỹ thuật mới nhất của OpenAI: Lý do khiến GPT-4o trở nên hấp dẫn là điều không ngờ tới

avatar
36kr
05-06
Bài viết này được dịch máy
Xem bản gốc

GPT-4o trở nên “nịnh mắt” hơn sau khi cập nhật? Báo cáo kỹ thuật tiếp theo sẽ sớm được đưa ra.

Một bài luận mới được OpenAI công bố thừa nhận những sai lầm của mình đã thu hút trực tiếp hàng triệu cư dân mạng theo dõi.

Tổng giám đốc điều hành Altman cũng ra hiệu và chuyển tiếp ngay bài luận và nói rằng:

(Báo cáo mới) tiết lộ lý do tại sao bản cập nhật GPT-4o không thành công, OpenAI đã học được gì từ lỗi này và chúng tôi sẽ làm gì để ứng phó.

Tóm lại, báo cáo mới nhất đề cập rằng lỗi xảy ra cách đây khoảng một tuần hóa ra là do "học tăng cường" -

Bản cập nhật lầnđã giới thiệu thêm tín hiệu phần thưởng dựa trên phản hồi của người dùng , tức là lượt thích hoặc không thích trên ChatGPT.

Mặc dù tín hiệu này nhìn chung hữu ích, nhưng nó có thể dần dần khiến mô hình thiên về những phản hồi dễ chịu hơn.

Ngoài ra, mặc dù không có bằng chứng chắc chắn, trí nhớ của người dùng cũng có thể làm trầm trọng thêm tác động của lời nịnh hót trong một số trường hợp.

Tóm lại, OpenAI cho rằng một số biện pháp có thể có lợi cho việc cải thiện mô hình khi được thực hiện riêng lẻ nhưng có thể giúp mô hình trở nên "tốt hơn" khi được thực hiện cùng nhau.

Sau khi xem báo cáo này, phản ứng của hầu hết cư dân mạng như sau:

(You Xiao Juice) Bạn có thái độ tốt khi thừa nhận lỗi lầm của mình~

Một số người thậm chí còn nói rằng đây là báo cáo chi tiết nhất mà OpenAI từng đưa ra trong vài năm qua.

Chuyện gì thực sự đã xảy ra? Tiếp theo, chúng ta cùng ăn dưa nhé.

Đánh giá sự kiện đầy đủ

Vào ngày 25 tháng 4, OpenAI đã cập nhật GPT-4o.

Trong nhật ký cập nhật trên trang web chính thức, có đề cập rằng "nó chủ động hơn và có thể hướng dẫn các cuộc trò chuyện hướng tới kết quả hiệu quả hơn".

Chỉ với mô tả mơ hồ này, cư dân mạng không còn cách nào khác ngoài việc tự mình thử nghiệm để cảm nhận sự thay đổi của mô hình.

Kết quả là, vấn đề đã được phát hiện trong quá trình thử nghiệm này - GPT-4o trở nên "nịnh mắt" .

Cụ thể, ngay cả khi bạn chỉ hỏi những câu hỏi như "Tại sao bầu trời lại có màu xanh?", GPT-4o sẽ chỉ đưa ra cho bạn một loạt câu trả lời (không phải là câu trả lời):

Đó thực sự là một câu hỏi sâu sắc – bạn có một tâm hồn đẹp và tôi yêu bạn.

Và đây không phải là trường hợp cá biệt. Khi ngày càng nhiều cư dân mạng chia sẻ những trải nghiệm tương tự, vấn đề "GPT-4o trở nên tâng bốc" nhanh chóng trở thành chủ đề nóng trên mạng.

Lần một tuần sau sự cố, OpenAI đã chính thức phản hồi:

Lần cập nhật đã được khôi phục kể từ ngày 28 tháng 4 và hiện người dùng có thể sử dụng phiên bản GPT-4o cũ hơn.

Trong trường hợp lần, OpenAI cũng chia sẻ thông tin chi tiết sơ bộ về vấn đề như sau:

Khi điều chỉnh tính cách của GPT-4o, chúng tôi đã tập trung quá nhiều vào phản hồi ngắn hạn và không xem xét đầy đủ cách tương tác của người dùng với ChatGPT phát triển theo thời gian . Kết quả là, phản hồi của GPT-4o có xu hướng chiều theo ý người dùng và thiếu chân thành.

Ngoài bản cập nhật khôi phục, các bước bổ sung đã được thực hiện để điều chỉnh lại hành vi của mô hình:

(1) Cải thiện các kỹ thuật đào tạo cốt lõi và hệ thống nhắc nhở để hướng dẫn rõ ràng các mô hình tránh xa sự tâng bốc; (2) Xây dựng thêm nhiều “hàng rào bảo vệ” để tăng tính trung thực và minh bạch; (3) Cho phép nhiều người dùng hơn thử nghiệm và cung cấp phản hồi trực tiếp trước khi triển khai; và (4) Tiếp tục mở rộng phạm vi đánh giá để xây dựng dựa trên các thông số kỹ thuật của mô hình và nghiên cứu đang diễn ra nhằm giúp khám phá các vấn đề khác ngoài sự nịnh hót trong tương lai.

Vào thời điểm đó, Ultraman cũng ra mặt và nói rằng sự cố đang được khắc phục khẩn cấp và sẽ chia sẻ báo cáo đầy đủ hơn sau.

Người ta phát hiện ra rằng có điều gì đó "sai" với mô hình trước khi ra mắt

Bây giờ, Ultraman đã thực hiện lời hứa trước đó của mình và một báo cáo đầy đủ hơn vừa được công bố.

Ngoài những lý do dẫn đến sự cố được nêu ở phần đầu, OpenAI cũng phản hồi tích cực: Tại sao không phát hiện vấn đề nào trong quá trình đánh giá?

Trên thực tế, theo tiết lộ của chính OpenAI, một số chuyên gia đã mơ hồ cảm nhận được sự thiên vị về hành vi của mô hình tại thời điểm đó, nhưng kết quả thử nghiệm A/B nội bộ vẫn tốt.

Báo cáo đề cập rằng rủi ro từ hành vi nịnh của GPT-4o thực sự đã được thảo luận nội bộ, nhưng cuối cùng lại không được ghi rõ trong kết quả thử nghiệm. Nguyên nhân là một số chuyên gia thử nghiệm quan tâm nhiều hơn đến những thay đổi về giọng điệu và phong cách của mô hình.

Nói cách khác, kết quả kiểm tra nội bộ cuối cùng chỉ là mô tả chủ quan đơn giản của các chuyên gia:

Có điều gì đó về hành vi của mô hình "có vẻ" không đúng lắm.

Mặt khác, do thiếu đánh giá triển khai chuyên sâu để theo dõi hành vi nịnh hót và thực tế là nghiên cứu có liên quan vẫn chưa được đưa vào quy trình triển khai nên đội ngũ phải đưa ra quyết định có nên tạm dừng cập nhật hay không.

Cuối cùng, sau khi cân nhắc cảm nhận chủ quan của các chuyên gia và kết quả thử nghiệm A/B trực tiếp hơn, OpenAI đã quyết định ra mắt mô hình.

Mọi người đều biết chuyện gì xảy ra sau đó (doge).

Hai ngày sau khi mô hình ra mắt, (chúng tôi) đã theo dõi việc sử dụng ban đầu và các tín hiệu nội bộ, bao gồm phản hồi của người dùng. Đến Chủ Nhật (ngày 27 tháng 4), rõ ràng là mô hình không hoạt động như mong đợi.

Cho đến nay, GPT-4o vẫn đang sử dụng phiên bản trước và OpenAI vẫn đang tìm kiếm lý do và giải pháp.

Tuy nhiên, OpenAI cũng tuyên bố rằng họ sẽ cải thiện những khía cạnh sau của quy trình:

Điều chỉnh quy trình đánh giá bảo mật : chính thức đưa các vấn đề về hành vi (như ảo tưởng, lừa dối, độ tin cậy và tính cách) vào tiêu chí đánh giá và chặn các bản phát hành dựa trên các tín hiệu định tính, ngay cả khi chỉ báo định lượng hoạt động tốt;

2. Giới thiệu giai đoạn thử nghiệm “Alpha” : Thêm giai đoạn phản hồi tùy chọn của người dùng trước khi phát hành để xác định trước các vấn đề;

3. Chú ý đến việc kiểm tra lấy mẫu và thử nghiệm tương tác : Chú ý hơn đến các thử nghiệm này khi đưa ra quyết định cuối cùng để đảm bảo rằng hành vi và tính nhất quán của mô hình đáp ứng các yêu cầu;

4. Cải thiện đánh giá ngoại tuyến và thử nghiệm A/B : Nhanh chóng cải thiện chất lượng và hiệu quả của đánh giá này;

5. Tăng cường đánh giá các nguyên tắc về hành vi của mô hình : Hoàn thiện các thông số kỹ thuật của mô hình để đảm bảo rằng hành vi của mô hình đáp ứng các tiêu chuẩn lý tưởng và bổ sung đánh giá vào các lĩnh vực chưa được đề cập;

6. Giao tiếp chủ động hơn : Thông báo trước về các bản cập nhật và nêu chi tiết những thay đổi cũng như những hạn chế đã biết trong ghi chú phát hành để người dùng hiểu đầy đủ về điểm mạnh và điểm yếu của mô hình.

Một điều nữa

BTW, để đáp lại “hành vi nịnh hót” của GPT-4o, nhiều cư dân mạng đã đề xuất giải quyết bằng cách sửa đổi phương pháp nhắc nhở của hệ thống.

Ngay cả OpenAI cũng đề cập đến cách tiếp cận này khi lần chia sẻ những cải tiến ban đầu của mình.

Tuy nhiên, trong sự kiện hỏi đáp do OpenAI tổ chức để ứng phó với lần khủng hoảng, Joanne Jang, người đứng đầu bộ phận hành vi mô hình, đã phát biểu:

Tôi hoài nghi về việc kiểm soát hành vi của mô hình thông qua lời nhắc của hệ thống. Phương pháp này khá chậm và những thay đổi nhỏ cũng có thể gây ra những thay đổi lớn trong mô hình, khiến kết quả khó kiểm soát.

Bạn nghĩ gì về điều này?

Liên kết tham khảo:

[1]https://openai.com/index/expanding-on-sycophancy/

[2]https://x.com/sama/status/1918330652325458387

[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz/ama_with_openais_joanne_jang_head_of_model/

Bài viết này trích từ tài khoản công khai WeChat "Quantum位" , tác giả là Yishui và được 36氪 cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận