Phương pháp của Altman sử dụng mô hình lớn là sai?
Nghiên cứu mới nhất từ Trường Kinh doanh Wharton và các cơ quan khác phát hiện ra rằng, lời nhắc "trả lời trực tiếp" được Altman yêu thích, hóa ra lại làm giảm đáng kể độ chính xác của mô hình.
Tuy nhiên, mặt khác, nghiên cứu này cũng phát hiện ra rằng, việc thêm lệnh chuỗi suy luận (CoT) vào lời nhắc cũng không hiệu quả —
Lời nhắc CoT không chỉ không nâng cao hiệu quả cho các mô hình suy luận mà còn tăng thời gian và chi phí tính toán.
Đối với một số mô hình phi suy luận tiên tiến, lời nhắc CoT có thể mang lại sự cải thiện, nhưng tính không ổn định của câu trả lời cũng tăng theo.
Nhóm nghiên cứu đã sử dụng bộ dữ liệu GPQA Diamond, tiến hành kiểm tra các mô hình suy luận và phi suy luận chính hiện nay trong các trường hợp bật và tắt CoT.
Kết quả là đối với các mô hình suy luận, tác dụng của CoT rất hạn chế, ví dụ như đối với o3-mini, CoT chỉ mang lại sự cải thiện độ chính xác 4.1%, nhưng thời gian lại tăng 80%.
Kết quả của các mô hình phi suy luận phức tạp hơn một chút, nhưng tóm lại, việc có nên sử dụng CoT hay không cần phải cân nhắc cẩn thận về lợi ích và chi phí.
Vậy CoT có nên được sử dụng không?
Thực tế, nghiên cứu này nhắm đến lệnh CoT trong lời nhắc của người dùng, không bao gồm việc thiết lập lời nhắc hệ thống, và không phải là CoT itself.
Lời nhắc CoT có tác dụng hạn chế, thậm chí còn có tác dụng ngược
Nghiên cứu này sử dụng bộ dữ liệu GPQA Diamond làm công cụ kiểm tra chuẩn, bộ dữ liệu này bao gồm các vấn đề suy luận chuyên gia ở mức độ sau đại học.
Trong quá trình thí nghiệm, nhóm nghiên cứu đã kiểm tra các mô hình sau:
- Mô hình suy luận: o4-mini, o3-mini, Gemini 2.5 Flash
- Mô hình phi suy luận: Claude 3.5 Sonnet 3.5, Gemini 2.0 Flash, GPT-4o-mini, GPT-4o, Gemini Pro 1.5
Đối với mỗi mô hình, nhóm nghiên cứu đã thiết lập ba môi trường thí nghiệm:
- Buộc suy luận: Hướng dẫn mô hình suy nghĩ từng bước trước khi cung cấp câu trả lời (Suy nghĩ từng bước);
- Trả lời trực tiếp: Hướng dẫn rõ ràng mô hình không được giải thích hoặc suy nghĩ, chỉ cung cấp câu trả lời;
- Mặc định: Không cung cấp bất kỳ lệnh hậu tố cụ thể nào, để mô hình tự chọn cách trả lời câu hỏi.
Để đảm bảo độ tin cậy của kết quả, mỗi câu hỏi được kiểm tra 25 lần trong mỗi điều kiện, nghĩa là mỗi mô hình phải trả lời cùng một câu hỏi 75 lần.
Đối với mỗi thiết lập thí nghiệm, nhóm nghiên cứu đã thống kê bốn chỉ báo:
- Tỷ lệ chính xác 100%: Chỉ tính là "thành công" khi 25 lần thử nghiệm của cùng một câu hỏi đều trả lời đúng, "thành công" được chia cho số lượng câu hỏi;
- Tỷ lệ chính xác 90%: Phải trả lời đúng ít nhất 23 lần trong 25 lần thử nghiệm, gần với tỷ lệ sai sót có thể chấp nhận của con người;
- Tỷ lệ chính xác 51%: Áp dụng nguyên tắc đa số đơn giản, trả lời đúng ít nhất 13 lần trong 25 lần thử nghiệm được coi là thành công;
- Điểm trung bình: Đếm trực tiếp số câu trả lời chính xác, sau đó chia cho tổng số lần thử nghiệm, tức là tỷ lệ chính xác tổng thể.
Kết quả, đối với các mô hình phi suy luận, so với trả lời trực tiếp, điểm trung bình và chỉ báo "chính xác 51%" của tất cả các mô hình đều có sự cải thiện.
Trong đó, Gemini Flash 2.0 có sự cải thiện rõ rệt nhất, Claude 3.5 Sonnet đứng ngay sau, GPT-4o và 4o-mini cải thiện không rõ rệt.
Nhưng trong các chỉ báo chính xác 100% và 90%, so với không suy luận, sau khi thêm lời nhắc CoT, các chỉ báo của hai mô hình Gemini và 4o-mini lại giảm xuống.
Điều này có nghĩa là, mặc dù CoT nâng cao độ chính xác của mô hình theo tổng thể, nhưng đồng thời cũng tăng tính không ổn định của câu trả lời.
Nếu so sánh chế độ CoT bắt buộc và chế độ mặc định, có thể thấy hiệu quả của CoT rõ ràng yếu hơn so với trả lời trực tiếp, nguyên nhân có thể là do một số mô hình đã tích hợp sẵn chuỗi suy luận.
Đối với các mô hình suy luận, hiệu quả của lời nhắc CoT còn hạn chế hơn nữa —
Đối với o3-mini và o4-mini, việc sử dụng lời nhắc CoT so với yêu cầu mô hình trả lời trực tiếp cải thiện rất ít, đối với Gemini 2.5 Flash thậm chí còn giảm toàn bộ các chỉ báo.
Ví dụ như trên điểm trung bình, o3-mini chỉ cải thiện 2.9 điểm phần trăm, o4-mini cải thiện 3.1 điểm phần trăm.
Nhưng so sánh với đó, thời gian tiêu hao lại tăng mạnh, o4-mini tăng khoảng 20%, o3-mini thậm chí tăng hơn 80%.
Các mô hình phi suy luận có hiệu quả tốt hơn, thời gian tăng cũng rõ rệt hơn.
Kết hợp với bài đăng của tác giả chê bai Altman ở đầu, có thể thấy các mô hình vẫn thể hiện tốt nhất khi "biết suy nghĩ", nhưng trong các mô hình tiên tiến nhất, các mô hình suy luận vốn đã tích hợp sẵn quy trình suy luận, một số mô hình phi suy luận cũng đã bao gồm lời nhắc CoT, vì vậy "suy nghĩ" này không còn cần phải thực hiện bằng cách thêm lời nhắc bổ sung.
Vì vậy, đối với người dùng trực tiếp các ứng dụng mô hình, cài đặt mặc định đã là một phương thức sử dụng rất tốt.
Địa chỉ báo cáo:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532
Bài viết này đến từ trang WeChat "Lượng Tử Vị", tác giả: Krey, được 36Kr ủy quyền đăng tải.





