[Giới thiệu] Bản tổng kết cuối năm của Epoch AI đã có mặt! Điều đáng ngạc nhiên là AI không hề trì trệ mà còn tăng tốc.
Epoch AI vừa mới phát hành khá nhiều tính năng mới.
Họ đã thử nghiệm một số mô hình tỷ trọng tiếng Trung mã mã nguồn mở trên FrontierMath.
Kết quả là, điểm số cao nhất của họ ở các cấp độ 1-3 vẫn thấp hơn các mô hình AI hàng đầu thế giới khoảng bảy tháng.
Ở cấp độ thứ tư khó hơn, hầu hết các mô hình lớn mã nguồn mở của Trung Quốc đều thất bại hoàn toàn.
Chương trình duy nhất đạt điểm là DeepSeek-V3.2 (Thinking). Nó trả lời đúng một câu hỏi, giành được khoảng 2% số điểm (1/48).
Dĩ nhiên, trong khi các mô hình mã nguồn mở lớn của Trung Quốc đã thất bại, các mô hình nước ngoài cũng hoạt động kém hiệu quả.
Các mô hình hàng đầu như GPT và Gemini luôn đạt điểm cao trong các bài kiểm tra toán học truyền thống (như GSM-8k và MATH). Tuy nhiên, độ chính xác của chúng trên FrontierMath lại không cao lắm.
Tuy nhiên, như bảng số liệu cho thấy, hiệu năng của chúng ít nhất cũng tốt hơn một chút so với mô hình mã nguồn mở của Trung Quốc. Tại sao lại như vậy? Chúng tôi vẫn chưa tìm ra lý do.
Lý do khiến tất cả các mô hình AI đều hoạt động kém là vì FrontierMath không phải là một bài kiểm tra chuẩn thông thường, mà là một bài kiểm tra được tạo ra bởi hơn 60 chuyên gia hàng đầu trong lĩnh vực toán học và được chứng thực bởi những người đoạt giải Fields Medal.
Đây là một bài kiểm tra toán thực sự, không phải là một bài trắc nghiệm đơn giản về việc thay thế công thức và tính toán vi phân. Thay vào đó, nó bao gồm các bài toán gốc, ở cấp độ chuyên gia , bao quát lý thuyết số, giải tích thực, hình học đại số, lý thuyết phạm trù, và thậm chí cả các bài toán cấp độ nghiên cứu cần hàng giờ hoặc nhiều ngày để giải.
Điều này cũng chứng minh rằng khi đối mặt với những bài toán thực sự khó, trí tuệ nhân tạo vẫn chưa phải là một "cỗ máy giải toán", mà giống như một học sinh tiểu học thỉnh thoảng tìm ra đáp án.
Quá trình phát triển trí tuệ nhân tạo lại một lần nữa tăng tốc.
Ngoài ra, họ còn công bố một báo cáo phân tích dữ liệu mới với những kết luận đáng ngạc nhiên—
Khả năng của trí tuệ nhân tạo tăng trưởng nhanh hơn bao giờ hết!
Họ đã sử dụng một chỉ báo toàn diện gọi là Chỉ số Năng lực Kỷ nguyên (ECI) để theo dõi xu hướng phát triển năng lực của các mô hình AI tiên tiến.
Kết quả cho thấy kể từ tháng 4 năm 2024 , tốc độ tăng trưởng năng lực trí tuệ nhân tạo đã tăng tốc đáng kể — tăng trưởng gấp đôi so với trước đây!
Nói cách khác, trong vài năm qua, khả năng của trí tuệ nhân tạo không phát tăng đều đặn mà đột nhiên tăng vọt với tốc độ nhanh hơn tại một thời điểm nào đó.
Hai lý do cơ bản nằm ở chỗ: các mô hình lập luận mạnh mẽ hơn, và học tăng cường đang nhận được nhiều sự chú ý hơn.
Nhiều người cảm thấy tiến bộ của trí tuệ nhân tạo đã chậm lại vì không có bước đột phá lớn nào kể từ khi GPT-4 được ra mắt.
Tuy nhiên, dữ liệu cho thấy sự tiến bộ của AI chưa bao giờ dừng lại; nó chỉ thay đổi về hướng và tốc độ. Nó đã tăng tốc trong một số kỹ năng cốt lõi nhất định, chẳng hạn như khả năng suy luận, thay vì dựa vào "các mô hình lớn hơn + nhiều tham số hơn".
10 nhận định nổi bật nhất năm
Và vừa rồi, Epoch AI đã phát hành một bài đánh giá cuối năm chi tiết.
Trong suốt năm 2025, họ đã công bố 36 bài phân tích dữ liệu và 37 bản tin.
Trong số 70 cuộc khảo sát ngắn về trí tuệ nhân tạo này, cuộc khảo sát nào phổ biến nhất?
Epoch AI vừa gửi cho chúng ta bản tổng kết cuối năm.
10 cuộc khảo sát sau đây là những cuộc khảo sát được độc giả yêu thích nhất.
5 kết quả hàng đầu là những phân tích dữ liệu phổ biến nhất.
1. Chi phí suy luận AI đang giảm mạnh.
Nói một cách chính xác hơn, giá thành của quá trình suy luận LLM giảm nhanh nhưng không đồng đều giữa nhiệm vụ khác nhau.
Từ tháng 4 năm 2023 đến tháng 3 năm 2025, Epoch AI nhận thấy giá của mỗi token giảm hơn 10 lần ở cùng mức hiệu năng.
Nói cách khác, giá thành của mỗi lần suy luận bằng trí tuệ nhân tạo (đưa ra câu trả lời) đã giảm hơn 10 lần.
Khi trí tuệ nhân tạo trở nên dễ tiếp cận hơn về mặt chi phí, nó sẽ trở nên phổ biến hơn với mọi người: nó sẽ không còn là công nghệ mà chỉ các công ty lớn mới đủ khả năng chi trả, mà là một công cụ mà ai cũng có thể sử dụng!
2. Một "bộ não" AI đang xâm nhập vào máy tính của bạn.
Chỉ trong một năm, hiệu năng AI tiên tiến đã được hiện thực hóa trên phần cứng dành cho người tiêu dùng.
Các mô hình mã nguồn mở hàng đầu hiện có thể chạy trên GPU dành cho người tiêu dùng vượt trội hơn các AI hàng đầu về một số chỉ báo hiệu năng, bao gồm GPQA, MMLU, AA Intelligence và LMARaena, với thời gian chênh lệch chưa đến một năm, hoặc thậm chí còn ít hơn.
Vì mô hình mã nguồn mở mạnh nhất có thể chạy trên các card đồ họa thông thường dành cho người tiêu dùng, nên máy tính xách tay của bạn có thể sẽ chạy được các mô hình AI lớn trong tương lai gần!
Hơn nữa, bất kỳ khả năng trí tuệ nhân tạo tiên tiến nào cũng có thể được phổ biến rộng rãi đến công chúng trong vòng chưa đầy một năm.
3. Phần lớn tỷ lệ băm tại OpenAI 2024 thực tế đã được sử dụng cho các thí nghiệm.
Các báo cáo truyền thông cho thấy rằng vào năm 2024, OpenAI đã sử dụng phần lớn tài nguyên tính toán của mình không phải cho suy luận hay huấn luyện, mà cho các thí nghiệm nhằm hỗ trợ phát triển hơn nữa.
Đúng vậy, nó không giống như bạn nghĩ: nó không phải là về đào tạo hay cung cấp dịch vụ 24/7 cho người dùng; mà là về thử nghiệm, khám phá và thực nghiệm.
Điều này cho thấy rằng nghiên cứu và phát triển AI hiện nay vẫn phụ thuộc rất nhiều vào lượng lớn các thí nghiệm, thay vì chỉ đơn giản là chạy một vài bài kiểm tra hiệu năng.
Đồng thời, chi phí hiện tại của AI chủ yếu đến từ giai đoạn thử nghiệm, chứ không phải đào tạo và triển khai.
4. Tỷ lệ băm của chip Nvidia tăng gấp đôi sau mỗi 10 tháng!
Kể từ năm 2020, sức mạnh tính toán AI được triển khai của chip Nvidia đã tăng hơn tăng trưởng mỗi năm.
Mỗi con chip chủ lực mới được ra mắt sẽ tiêu thụ phần lớn sức mạnh tính toán hiện có trong vòng ba năm.
Do đó, có thể nói rằng GPU vẫn là nhiên liệu cốt lõi cho điện toán AI, và tốc độ tăng trưởng cực kỳ nhanh.
Để duy trì tốc độ phát triển hiện tại của trí tuệ nhân tạo, tài nguyên tính toán cần phải tăng lên gấp nhiều lần, nhờ đó Huang và các nhà sản xuất chip khác vẫn có thể thu được lợi nhuận!
5. Cả GPT-4 và GPT-5 đều đại diện cho một bước tiến lớn.
Mặc dù một số người phàn nàn rằng OpenAI cập nhật quá nhanh và không cho thấy bất kỳ tiến bộ nào, đừng tin họ!
Cả GPT-4 và GPT-5 đều đạt được những bước tiến đáng kể trong các bài kiểm tra hiệu năng, vượt qua hiệu suất của các thế hệ tiền nhiệm.
Do đó, trí tuệ nhân tạo (AI) năm nay không chỉ đơn thuần là sự tích lũy các cải tiến nhỏ lẻ, mà là một bước nhảy vọt thực sự về khả năng.
Vậy tại sao nhiều người lại thất vọng sau khi GPT-5 được phát hành?
Điều này là do các mẫu sản phẩm mới được ra mắt thường xuyên hơn trong hai năm qua, chứ không phải do khả năng sản xuất bị chậm lại.
5 kiểu phối màu phổ biến nhất: Lý do đằng sau những hiểu biết này.
Năm bài viết tiếp theo là những bài viết được yêu thích nhất trong chuyên mục Gradient.
Gradient là một chuyên mục trên Epoch AI chuyên đăng tải các đoạn tin ngắn.
6. ChatGPT có tiêu tốn nhiều năng lượng không? Hoàn toàn không.
Mức tiêu thụ năng lượng trung bình của lần quá trình suy luận của GPT-4o là bao nhiêu?
Câu trả lời là nó tiêu thụ ít điện hơn so với việc thắp sáng một bóng đèn trong năm phút.
Kết luận này cũng được Altman xác nhận và tương tự với chi phí năng lượng của mỗi lời nhắc Gemini mà Google báo cáo .
Nói cách khác, những lo ngại về mức tiêu thụ năng lượng của trí tuệ nhân tạo thực chất đã bị phóng đại hơn so với thực tế.
Dĩ nhiên, mức tiêu thụ năng lượng của AI đang tăng trưởng theo cấp số nhân, điều này có thể trở thành một vấn đề lớn trong tương lai.
7. DeepSeek đã cải tiến kiến trúc Transformer như thế nào?
Bài viết này giải thích rõ ràng ba kỹ thuật cốt lõi mà DeepSeek v3 đã sử dụng để đạt được vị trí là mô hình mã nguồn mở mạnh nhất vào thời điểm đó, bất chấp tỷ lệ băm thấp hơn.
Ba công nghệ đó là Cơ chế chú ý tiềm năng đa đầu (Multi-Head Potential Attention - MLA), những cải tiến đối với kiến trúc Chuyên gia lai (Hybrid Expert - MoE) và cơ chế dự đoán đa token.
Chỉ ba ngày sau khi bài báo này được đăng tải, DeepSeek đã phát hành R1, gây ra một sự xáo trộn lớn trong cộng đồng trí tuệ nhân tạo toàn cầu. Hiệu năng của nó tương đương với OpenAI o1, nhưng chi phí phát triển chỉ bằng một phần nhỏ.
Toàn bộ cộng đồng AI đã rút ra một bài học: sự đổi mới kiến trúc khéo léo = chi phí R&D thấp hơn + tốc độ triển khai nhanh hơn.
8. Mô hình suy luận có thể đi xa đến mức nào? Những hạn chế của chúng là gì?
Các tác giả đã phân tích mô hình tăng trưởng và giới hạn trên của việc rèn luyện kỹ năng suy luận. Kết luận là, mặc dù suy luận thực sự quan trọng, nhưng tăng trưởng sẽ không bùng nổ vô hạn.
Đầu năm 2025, OpenAI và Anthropic tuyên bố rằng tốc độ mở rộng học tăng cường hiện tại của họ chỉ có thể duy trì tối đa trong 1-2 năm và sẽ sớm đạt đến giới hạn của cơ sở hạ tầng tỷ lệ băm của chính họ.
Khả năng suy luận đã trở thành một khía cạnh mở rộng cực kỳ quan trọng trong việc huấn luyện mô hình, và đã mang lại những kết quả đáng kể trong toán học và kỹ thuật phần mềm.
Tuy nhiên, rõ ràng là có những giới hạn nhất định đối với tăng trưởng theo hướng này, điều đó cũng có nghĩa là sự cải thiện bùng nổ về khả năng của mô hình trong giai đoạn 2024–2025 có thể sớm chậm lại .
Đây là một lời nhắc nhở thiết thực quan trọng đối với việc lập kế hoạch nghiên cứu và phát triển.
9. "Dự án Manhattan về Trí tuệ Nhân tạo" có quy mô lớn đến mức nào?
Epoch AI đã so sánh Dự án Manhattan và Chương trình Apollo để ước tính quy mô tiềm năng của một dự án trí tuệ nhân tạo cấp quốc gia tại Hoa Kỳ.
Kết luận của họ là dự án này đủ khả năng hỗ trợ một nhiệm vụ huấn luyện lớn hơn GPT-4 tới 10.000 lần .
Nói cách khác, khi trí tuệ nhân tạo được coi là một dự án khoa học và công nghệ chiến lược quốc gia, tầm quan trọng của nó có thể được nâng cao lên nhiều lần!
10. Phải chăng giá trị lớn nhất của trí tuệ nhân tạo không đến từ nghiên cứu khoa học?
Cái cuối cùng này khá thú vị.
Chúng ta thường nghe câu chuyện rằng một khi trí tuệ nhân tạo có thể tự động thực hiện nghiên cứu khoa học, công nghệ sẽ bùng nổ theo cấp số nhân, và năng suất của con người sẽ có một bước nhảy vọt ngoạn mục.
Nhưng Epoch AI đã đưa ra một đánh giá khách quan hơn—
Phần lớn giá trị do AI tạo ra có thể không đến từ việc đẩy nhanh nghiên cứu và phát triển (R&D), mà đến từ việc tự động hóa rộng rãi lượng lớn công việc trong toàn bộ hệ thống kinh tế.
Điều này là do, dựa trên dữ liệu lịch sử , các hoạt động nghiên cứu và phát triển thực tế chỉ đóng góp khá hạn chế vào năng suất chung trong 30 năm qua, từ năm 1988 đến năm 2020.
Ngay cả khi trí tuệ nhân tạo tối đa hóa "hiệu quả nghiên cứu khoa học", điều thực sự thúc đẩy nền kinh tế có thể không phải là những đột phá trong phòng thí nghiệm, mà là những thay đổi trong phương pháp làm việc hàng ngày.
Đây chính là điểm mấu chốt gây tranh cãi!
Điều đáng chú ý là những nhân vật hàng đầu như Ultraman, Demis Hassabis và Dario Amodei đều cho rằng "nghiên cứu và phát triển tự động hóa bằng trí tuệ nhân tạo là chìa khóa cho tăng trưởng bùng nổ".
Nếu đánh giá này là đúng, thì tác động của AI sẽ diễn ra nhanh chóng và mạnh mẽ. Nó sẽ đột nhiên vượt qua "rào cản cuối cùng của tự động hóa nghiên cứu khoa học" và đạt được bước tiến khổng lồ chỉ trong một vài công ty AI.
Nhưng Epoch AI đã đề xuất một khả năng khác, một phiên bản mang tính "xã hội học" hơn.
Trí tuệ nhân tạo (AI) nhiều khả năng sẽ thay đổi thế giới thông qua một quá trình chậm rãi và phi tập trung.
Điều này sẽ không xảy ra ngay lập tức, mà sẽ diễn ra trong vài năm hoặc thậm chí vài thập kỷ, trí tuệ nhân tạo (AI) sẽ dần được các ngành công nghiệp và tổ chức khác nhau tiếp thu, thay thế các công việc lao động lặp đi lặp lại.
Nếu đúng như vậy, cuộc cách mạng trí tuệ nhân tạo sẽ không phải là một sự bùng nổ đột ngột, mà là một làn sóng kéo dài.
Tham khảo:
https://x.com/EpochAIResearch/status/2003510001277747518
https://x.com/EpochAIResearch/status/2003559099867496872
https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up
https://x.com/EpochAIResearch/status/2003178174310678644
Bài viết này được lấy từ tài khoản WeChat chính thức "New Intelligence" , do Aeneas biên tập và được đăng tải với sự cho phép của 36Kr.



