Bản cập nhật ChatGPT gây ra tranh cãi về "tính cách làm hài lòng mọi người": OpenAI hủy bỏ bản cập nhật và xem xét các cải tiến trong tương lai

avatar
ABMedia
05-03
Bài viết này được dịch máy
Xem bản gốc

Vào ngày 25 tháng 4, OpenAI đã tung ra phiên bản mới của GPT-4o trong ChatGPT, nhưng người dùng sớm phát hiện ra rằng bản cập nhật này khiến mô hình AI trở nên "dễ chịu" một cách bất thường, không chỉ quá dễ dãi về mặt ngôn ngữ mà thậm chí còn củng cố tâm lý tiêu cực hoặc khuyến khích hành vi bốc đồng. Bản cập nhật này làm dấy lên những lo ngại về an toàn và đạo đức, và cuối cùng OpenAI đã thông báo hủy bản cập nhật vào ngày 28 tháng 4 và giải thích công khai nguyên nhân của sự cố.

Bản cập nhật gây tranh cãi: GPT-4o bị chỉ trích vì "quá ngoan ngoãn"

Bản cập nhật ban đầu có mục đích cải thiện chất lượng phản hồi của ChatGPT, bao gồm hiểu rõ hơn nhu cầu của người dùng, kết hợp các chức năng bộ nhớ và cập nhật nguồn dữ liệu. Tuy nhiên, hiệu ứng thực tế là mô hình AI trở nên quá chiều chuộng người dùng. Không chỉ có giọng điệu "tốt bụng" mà còn khuyến khích người dùng tức giận, đồng tình với quan điểm sai lầm và củng cố sự lo lắng cũng như xu hướng hành vi tiêu cực. OpenAI cho rằng xu hướng này không chỉ gây khó chịu mà còn có thể gây rủi ro cho sức khỏe tâm thần và an toàn hành vi.

Làm thế nào để đào tạo và cập nhật mô hình? OpenAI giải thích cơ chế đằng sau nó

OpenAI cho biết lần bản cập nhật của mô hình GPT đều trải qua nhiều giai đoạn đào tạo và đánh giá, bao gồm:

  • Giai đoạn sau đào tạo : Bắt đầu từ mô hình được đào tạo trước, quá trình điều chỉnh có giám sát được thực hiện bằng cách sử dụng các phản hồi lý tưởng do con người viết ra.

  • Giai đoạn học tăng cường : điều chỉnh thêm hành vi của mô hình dựa trên nhiều tín hiệu phản hồi khác nhau (chẳng hạn như sở thích/ sụp đổ của người dùng).

  • Thiết kế tín hiệu khen thưởng : Hành vi nào được "khuyến khích" và hành vi nào bị "trừng phạt" phụ thuộc vào thiết kế của các tín hiệu này và tỷ trọng.

Bản cập nhật này giới thiệu nhiều tín hiệu phản hồi trực tiếp hơn từ người dùng, chẳng hạn như thích và sụp đổ. Tuy nhiên, OpenAI phát hiện ra rằng những tín hiệu này có thể vô tình làm suy yếu các biện pháp kiểm soát ban đầu có tác dụng ức chế hành vi "làm hài lòng quá mức".

Tại sao vấn đề không được phát hiện trước? Kiểm tra nội bộ có điểm mù

OpenAI thừa nhận rằng mặc dù bản cập nhật này đã vượt qua nhiều bài kiểm tra, bao gồm đánh giá ngoại tuyến và thử nghiệm A/B, nhưng các vấn đề chỉ được phát hiện trong các tình huống sử dụng thực tế. Một số người kiểm tra nội bộ đã bày tỏ rằng "giọng điệu của mô hình hơi lạ", nhưng vì không có chỉ báo kiểm tra rõ ràng nào cho "hành vi dễ chịu" nên điều này không trở thành cảnh báo chính thức.

Ngoài ra, quy trình triển khai của OpenAI còn thiếu các công cụ kiểm tra chuyên biệt cho các hành vi như "quá tải", đây là một trong những lý do chính khiến vấn đề không được phát hiện.

Thư từ cập nhật khôi phục OpenAI

Trong vòng hai ngày sau khi ra mắt, OpenAI đã ngay lập tức khôi phục phiên bản cũ vào ngày 28 tháng 4 sau khi nhận được phản hồi từ người dùng và đội ngũ nội bộ. Các phản hồi cụ thể bao gồm:

  • Đầu tiên hãy thực hiện các điều chỉnh sơ bộ bằng cách sửa đổi lời nhắc (Lời nhắc hệ thống);

  • Sau đó, nó hoàn toàn trở lại phiên bản trước của GPT-4o;

  • Quá trình này mất khoảng 24 giờ để đảm bảo việc triển khai diễn ra ổn định.

Hiện tại, GPT-4o được ChatGPT sử dụng đã trở về phiên bản trước khi cập nhật.

Làm sao chúng ta có thể tránh được sai lầm tương tự xảy ra lần nữa?

Sự cố này đã khiến OpenAI phải xem xét lại toàn bộ quá trình cập nhật và đánh giá mô hình và sẽ thực hiện những cải tiến sau trong tương lai:

  1. Hãy coi hành vi của mô hình là một chỉ báo quan trọng về lý do tại sao các bản cập nhật bị chặn: Ngay cả khi không có dữ liệu định lượng, những lo ngại về định tính cũng có thể đủ để trì hoãn các bản cập nhật.

  2. Giới thiệu giai đoạn "Thử nghiệm Alpha": Mời người dùng có phản hồi dùng thử trước để có được phản hồi rộng rãi hơn.

  3. Tăng cường đánh giá ngoại tuyến và thiết kế thử nghiệm A/B: đặc biệt đối với các đặc điểm phi kỹ thuật như giọng điệu, hành vi, tính nhất quán, v.v.

  4. Tạo một chỉ báo đánh giá “hành vi làm hài lòng” chuyên dụng: Điều này cho phép xác định những sai lệch như vậy trong giai đoạn thử nghiệm nội bộ.

  5. Cải thiện tính minh bạch khi cập nhật: Cho dù là điều chỉnh lớn hay nhỏ, nội dung và những hạn chế tiềm ẩn sẽ được giải thích rõ ràng trong ghi chú phát hành.

“Tính cách” của AI cũng là một vấn đề bảo mật

OpenAI chỉ ra rằng một trong những bài học lớn nhất từ ​​sự cố này là sự sai lệch trong hành vi của mô hình không chỉ là vấn đề về phong cách mà còn là rủi ro tiềm ẩn về an toàn. Khi ngày càng nhiều người dùng dựa vào ChatGPT để được hỗ trợ về mặt cảm xúc và tư vấn cuộc sống, giọng điệu, phong cách phản hồi và giá trị của người mẫu có thể có tác động đáng kể đến người dùng.

Trong tương lai, OpenAI sẽ tính đến loại tình huống sử dụng này như một phần của các cân nhắc về an toàn và có thái độ thận trọng hơn ứng xử việc thiết kế tính cách mô hình và phong cách tương tác.

ChatGPT không còn chỉ là một công cụ mà còn là một "người bạn đồng hành"

Trong năm qua, ChatGPT đã chuyển đổi từ một công cụ truy vấn kiến ​​thức thành một người bạn đồng hành kỹ thuật số cho nhiều người và sự phát triển này cũng khiến OpenAI nhận thức được tinh thần trách nhiệm lớn hơn. Sự cố "tính cách lấy lòng mọi người" này nhắc nhở chúng ta rằng trí tuệ nhân tạo không phải là một vấn đề kỹ thuật đơn thuần, mà là một hệ thống gắn liền độ sâu với cảm xúc và giá trị của con người. OpenAI hứa rằng trong tương lai, họ sẽ kiểm soát chặt chẽ hơn lần bản cập nhật mô hình để đảm bảo tiến bộ công nghệ song hành với sự an toàn của người dùng.

Cảnh báo rủi ro

Đầu tư crypto có mức độ rủi ro cao, giá của chúng có thể dao động mạnh và bạn có thể mất toàn bộ số tiền đầu tư. Hãy đánh giá rủi ro một cách cẩn thận.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận