Tether ra mắt QVAC Genesis II, mở rộng bộ dữ liệu giáo dục tổng hợp lớn nhất thế giới lên 148 tỷ token.

Bài viết này được dịch máy
Xem bản gốc

Ngày 22 tháng 12 năm 2025 – Bộ phận nghiên cứu AI của Tether Data, QVAC, hôm nay đã công bố phát hành QVAC Genesis II, một sự mở rộng lớn của bộ dữ liệu giáo dục tổng hợp lớn nhất thế giới được công khai dành cho việc đào tạo trước trí tuệ nhân tạo. Với việc bổ sung 107 tỷ token mới, bộ dữ liệu QVAC Genesis kết hợp hiện có tổng cộng 148 tỷ token trên 19 lĩnh vực giáo dục, mở rộng đáng kể quy mô, chiều sâu và chất lượng suy luận của dữ liệu đào tạo AI mở.

QVAC Genesis II được xây dựng trực tiếp trên nền tảng của QVAC Genesis I, phiên bản đầu tiên giới thiệu bộ dữ liệu tổng hợp được kiểm định nghiêm ngặt, tập trung vào giáo dục, bao gồm các lĩnh vực STEM cốt lõi. Phiên bản thứ hai này mở rộng phạm vi bao phủ sang 10 lĩnh vực mới, bao gồm hóa học, khoa học máy tính, thống kê, máy học, thiên văn học, địa lý, kinh tế lượng và kỹ thuật điện, đồng thời tái tạo lại kiến ​​thức vật lý cấp đại học bằng phương pháp được cải tiến. Cùng nhau, Genesis I và II tạo thành bộ dữ liệu giáo dục tổng hợp toàn diện nhất từng được công bố rộng rãi.

Cốt lõi của bản phát hành này là một phương pháp tạo dữ liệu mới có tên gọi Suy luận cấp độ tùy chọn (Option-Level Reasoning), được thiết kế để trích xuất suy luận có cấu trúc không chỉ từ các lỗi của mô hình mà còn từ các câu trả lời đúng. Thay vì coi các câu trả lời đúng là kết quả cuối cùng, phương pháp này phân tích một cách có hệ thống mọi tùy chọn trả lời trong câu hỏi trắc nghiệm, củng cố suy luận đúng đồng thời giải quyết rõ ràng các quan niệm sai lầm phổ biến. Kết quả là dữ liệu huấn luyện nhấn mạnh tính rõ ràng, tính nhân quả và khả năng ra quyết định, chứ không chỉ là tính đúng đắn ở bề mặt.

Phương pháp tiếp cận mới này bổ sung cho phương pháp Phân tích Thất bại ban đầu được giới thiệu trong Genesis I, tạo thành một quy trình kép đảm bảo mọi câu hỏi được tạo ra đều đóng góp giá trị giáo dục. Các đánh giá độc lập cho thấy các mô hình được huấn luyện trên dữ liệu Genesis II thể hiện độ chính xác suy luận cao hơn đáng kể và đưa ra các câu trả lời rõ ràng, không mơ hồ một cách nhất quán hơn nhiều so với các mô hình được huấn luyện trên các tập dữ liệu tổng hợp trước đó.

Phiên bản này không chỉ đơn thuần là tăng quy mô, mà còn phản ánh sự thay đổi có chủ đích trong cách xây dựng dữ liệu AI giáo dục. Trong khi phần lớn ngành công nghiệp tập trung vào việc thu thập và tổng hợp khối lượng văn bản ngày càng lớn, cách tiếp cận của QVAC được thiết kế để dạy các mô hình cách suy nghĩ, lập luận và giải thích, đặt nền tảng cho trí thông minh dựa trên sự hiểu biết chứ không phải bắt chước.

“Hầu hết quá trình huấn luyện AI hiện nay tối ưu hóa cho sự trôi chảy, chứ không phải sự hiểu biết,” Paolo Ardoino, Giám đốc điều hành của Tether, cho biết . “Với bản phát hành này, chúng tôi đang hướng đến việc vượt ra ngoài khối lượng giao dịch để tập trung vào cấu trúc, khả năng suy luận và sự rõ ràng. Trí thông minh nên được xây dựng dựa trên sự hiểu biết về lý do tại sao một điều gì đó là đúng, chứ không chỉ đơn thuần là dự đoán điều gì nghe có vẻ đúng. Bằng cách công khai bộ dữ liệu này, chúng tôi đang cung cấp cho các nhà nghiên cứu và nhà phát triển các công cụ để tạo ra AI đáng tin cậy hơn, dễ giải thích hơn và cuối cùng là hữu ích hơn cho xã hội.”

Cũng như Genesis I, bộ dữ liệu mở rộng được phát hành công khai để hỗ trợ các nhà nghiên cứu, các tổ chức học thuật và các nhà phát triển độc lập làm việc bên ngoài các hệ thống khép kín, độc quyền. Nó được cung cấp theo giấy phép Creative Commons Attribution–NonCommercial (CC-BY-NC 4.0), củng cố cam kết của QVAC đối với nghiên cứu AI mở, hướng đến cộng đồng.

Việc ra mắt sản phẩm này tiếp tục sứ mệnh rộng lớn hơn của QVAC nhằm thúc đẩy trí tuệ phi tập trung, cục bộ, nơi các mô hình AI có thể được đào tạo, tinh chỉnh và triển khai mà không phụ thuộc vào các nền tảng đám mây tập trung. Bằng cách củng cố nền tảng mở của dữ liệu đào tạo AI, Tether Data hướng đến việc giảm bớt các rào cản cấu trúc đối với sự đổi mới và đảm bảo rằng trí tuệ chất lượng cao vẫn có thể tiếp cận được với cộng đồng nghiên cứu toàn cầu.

Thông tin chi tiết về mặt kỹ thuật của bộ dữ liệu, có tiêu đề “QVAC Genesis II: Mở rộng bộ dữ liệu tổng hợp giáo dục đa lĩnh vực lớn nhất và chất lượng cao nhất để huấn luyện trước”, hiện đã có sẵn trên blog nghiên cứu của QVAC, cùng với quyền truy cập vào bộ dữ liệu và các mô hình trên Hugging Face. Thông tin thêm, bao gồm cả phần Hỏi đáp chi tiết, có trên trang web của QVAC.

Về dữ liệu Tether

Tether Data, SA de CV (“Tether Data”) là một phần trong tầm nhìn rộng lớn hơn của Tether nhằm thúc đẩy tự do, minh bạch và đổi mới thông qua công nghệ. Sứ mệnh của công ty là cho phép mọi người và các tổ chức kết nối và chia sẻ thông tin trực tiếp, không cần đến các trung gian không cần thiết. Bằng cách tạo ra các hệ thống ngang hàng an toàn, Tether Data mang đến cho người dùng quyền kiểm soát lớn hơn đối với dữ liệu, thông tin liên lạc và tương tác kỹ thuật số của họ. Tether Data hướng đến việc định nghĩa lại cách thức thông tin lưu chuyển trên các mạng bằng cách thay thế các mô hình tập trung bằng cơ sở hạ tầng phi tập trung được thiết kế cho quyền riêng tư, hiệu quả và khả năng phục hồi. Mục tiêu của công ty là làm cho kết nối toàn cầu nhanh hơn, an toàn hơn và riêng tư hơn, trao quyền cho cả cá nhân và tổ chức trao đổi thông tin một cách tự do và an toàn.

Giới thiệu về QVAC

QVAC là sáng kiến ​​nghiên cứu trí tuệ nhân tạo tiên tiến của Tether Data, chuyên xây dựng các hệ thống trí tuệ mở, phi tập trung và thích ứng. Sứ mệnh của nó là Trí tuệ nhân tạo cục bộ. Trí tuệ vô hạn. Không thỏa hiệp, hướng đến một thế giới nơi trí tuệ nhân tạo tồn tại và học hỏi trên mọi thiết bị, trao quyền cho cá nhân và cộng đồng thay vì tập trung quyền lực vào các trung tâm dữ liệu của doanh nghiệp.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
87
Thêm vào Yêu thích
17
Bình luận