Tôi vừa nghe xong đoạn này và cả bài viết về suy nghĩ của Gavin về AI. Anh ấy có vẻ rất tự tin về việc các quy luật mở rộng quy mô của huấn luyện trước vẫn đúng, còn tôi thì… không chắc lắm? Lập luận tập trung rất nhiều vào những tiến bộ trong điện toán thúc đẩy huấn luyện trước, nhưng theo định nghĩa, cần phải có sự gia tăng tương xứng về dữ liệu để mở rộng quy mô, đúng không?
Vì tất cả chúng ta đều biết câu nói nổi tiếng của Ilya về dữ liệu huấn luyện trước, câu hỏi của tôi tất nhiên là, dữ liệu này đến từ đâu? Có vẻ như mọi người đang hướng đến ý tưởng sử dụng dữ liệu tổng hợp để huấn luyện trước, nhưng ý tưởng đó chưa bao giờ thực sự thuyết phục tôi.
Tôi có cảm giác trực giác rằng một mô hình tự tạo dữ liệu để huấn luyện trước sẽ dẫn đến một hệ thống rối rắm, không thể tiến bộ. Nó học trong sự cô lập, không được tiếp xúc với dữ liệu mới từ những người tạo ra khác nhau. NHƯNG, tôi chưa thực sự đọc bất kỳ bài báo nào về lợi ích hoặc hạn chế của việc huấn luyện trước các mô hình trên dữ liệu tự tạo có tính tương hỗ.
Còn ai khác có suy nghĩ và/hoặc nghiên cứu nào để dẫn chứng không? Và tôi xin lưu ý rằng điều này chỉ áp dụng cho giai đoạn trước huấn luyện, chứ không phải sau huấn luyện SFT, ETC