Tốc độ huấn luyện trước tăng gấp 2 đến 3 lần, nhưng giải pháp mới của Nous, TST, đang vướng vào tranh cãi về "xung đột" với các đối thủ cạnh tranh.
Bài viết này được dịch máy
Xem bản gốc
Theo ME News, vào ngày 14 tháng 5 (UTC+8), theo dõi của Beating, Nous Research đã phát hành một phương pháp huấn luyện trước mới cho các mô hình lớn gọi là Huấn luyện Xếp chồng Thì (Tense Stacking Training - TST). Phương pháp này giảm thời gian huấn luyện trước từ 2 đến 3 lần với cùng tải tính toán bằng cách đóng gói và nén các đơn vị từ vựng liền kề trong giai đoạn đầu của quá trình huấn luyện. TST bao gồm hai giai đoạn. Trong 20% đến 40% thời gian huấn luyện đầu tiên, mô hình không còn đọc từng đơn vị từ vựng một mà thay vào đó "đóng gói" các đơn vị từ vựng liền kề, tính toán giá trị trung bình làm đầu vào và dự đoán đơn vị từ vựng nào (bất kể thứ tự bên trong) sẽ được bao gồm trong gói tiếp theo ở đầu ra. Sau đó, mô hình quay trở lại dự đoán đơn vị từ vựng tiếp theo như bình thường. Vì kiến trúc cơ bản không được sửa đổi, mô hình kết quả hoàn toàn giống với mô hình thông thường trong quá trình suy luận. Phương pháp này đã được kiểm chứng trên mô hình MoE với tối đa 10 tỷ tham số. Bản chất của phương án này là "đổi dữ liệu lấy sức mạnh tính toán", đánh đổi việc tiêu thụ kho dữ liệu nhanh hơn để giảm thời gian tính toán. Nếu văn bản chất lượng cao trở nên khan hiếm trong tương lai, khả năng tăng tốc tiêu thụ dữ liệu của nó có thể trở thành điểm yếu. Hơn nữa, chỉ vài giờ sau khi bài báo được công bố, độc giả đã chỉ ra sự tương đồng đáng kể giữa cơ chế của TST và ấn phẩm năm 2024 của họ, *Beyond Next Token Prediction*. Đội ngũ sau đó đã thừa nhận trên Hugging Face rằng đây là "nghiên cứu trùng hợp không may" và hứa sẽ cập nhật bài báo với các trích dẫn bổ sung. (Nguồn: ME)
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ






