avatar
Qwen
01-28
Bài viết này được dịch máy
Xem bản gốc

Sự bùng nổ của DeepSeek V3 đã thu hút sự chú ý của toàn bộ cộng đồng AI đến các mô hình MoE quy mô lớn. Đồng thời, chúng tôi đã xây dựng Qwen2.5-Max, một LLM MoE lớn được tiền huấn luyện trên dữ liệu khổng lồ và được huấn luyện sau với các công thức SFT và RLHF được chọn lọc. Nó đạt được kết quả cạnh tranh

Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận