Vào ngày 25 tháng 12, Epoch AI, một tổ chức phi lợi nhuận tập trung vào việc đánh giá hiệu suất trí tuệ nhân tạo, đã công bố báo cáo cuối năm, cho thấy nhìn chung, khả năng của các mô hình AI đang được cải thiện nhanh chóng.
Các mô hình quốc tế hàng đầu như GPT và Gemini thể hiện xuất sắc trong bài toán toán học cấp chuyên gia FrontierMath, nhưng vẫn chưa đạt điểm tuyệt đối trong các bài toán thực sự khó, cho thấy khả năng suy luận của chúng vẫn cần được cải thiện. Trong khi đó, những tiến bộ trong khả năng suy luận của AI và học tăng cường đã giúp tốc độ tăng trưởng tăng gần gấp đôi, giảm đáng kể chi phí và cho phép nhiều mô hình chạy trên phần cứng cấp người tiêu dùng.
Trong bối cảnh đó, mặc dù các mô hình mã nguồn mở mô lớn của Trung Quốc đã có những tiến bộ, nhưng vẫn còn một khoảng cách đáng kể so với các mô hình hàng đầu quốc tế. Trong bài kiểm tra FrontierMath, phần lớn các mô hình của Trung Quốc đạt điểm gần như bằng không, chỉ có DeepSeek-V3.2 đạt được khoảng 2%. Điều này cho thấy mặc dù các mô hình của Trung Quốc đang bắt kịp, nhưng chúng vẫn gặp khó khăn khi xử lý các vấn đề thực sự phức tạp.
01 "Cuộc chạy đua bắt kịp trong bảy tháng" của Trung Quốc: Nguồn mã nguồn mở đang định hình lại bối cảnh
Điểm số cao nhất mà mô hình Trung Quốc đạt được vẫn còn kém xa so với các mô hình hàng đầu thế giới khoảng bảy tháng.
Trong bài kiểm tra FrontierMath mới nhất của Epoch AI, một mô hình mã nguồn mở của Trung Quốc đã thể hiện hiệu suất đáng chú ý. FrontierMath là một bài kiểm tra toán học đầy thách thức được thiết kế tỉ mỉ bởi các nhà toán học chuyên gia, bao gồm các nhánh chính của toán học hiện đại như lý thuyết số, giải tích thực, hình học đại số và lý thuyết phạm trù. Dữ liệu đầy đủ chứa 350 bài toán, trong đó 300 bài thuộc bộ cơ bản (cấp độ 1-3) và 50 bài toán cực khó (cấp độ 4). Việc giải quyết những bài toán này thường đòi hỏi các nhà nghiên cứu hàng giờ hoặc thậm chí nhiều ngày nỗ lực.
Bộ bài tập Toán học FrontierMath
Bộ bài tập FrontierMath được chia thành hai loại: công khai và sở hữu tư nhân. Ba cấp độ đầu tiên của bộ bài tập cơ bản chứa 10 bài toán được công khai, trong khi 290 bài toán còn lại thuộc bộ bài tập sở hữu tư nhân. Ở cấp độ thứ 4, các bài toán khó nhất bao gồm 2 bài toán được công khai và 48 bài toán còn lại thuộc bộ bài tập sở hữu tư nhân.
Kết quả đánh giá cho thấy, trong ngân hàng câu hỏi ở các cấp độ 1-3, điểm số cao nhất của mô hình Trung Quốc vẫn còn kém xa so với trình độ tiên tiến toàn cầu khoảng bảy tháng. Con số này có vẻ đáng kể, nhưng trong lịch sử phát triển AI, nó cho thấy các mô hình Trung Quốc đang thu hẹp khoảng cách với các phòng thí nghiệm hàng đầu như OpenAI và Anthropic với tốc độ đáng kinh ngạc. Chỉ hai năm trước, khoảng cách giữa các mô hình mã nguồn mở và các mô hình tiên tiến mã nguồn đóng được tính bằng năm; giờ đây, khoảng cách hiệu năng giữa mô hình mã nguồn mở tốt nhất chạy trên GPU dành cho người tiêu dùng và mô hình tiên tiến tuyệt đối chỉ còn chưa đầy một năm.
Điều đáng chú ý hơn nữa là lớp thứ tư của bộ bài toán—50 bài toán toán học cực kỳ khó, "cần vài ngày để giải". DeepSeek V3.2 (Thinking) là mô hình duy nhất của Trung Quốc đạt được điểm số khác 0 ở lớp này, trả lời đúng một câu hỏi (khoảng 2%). Mặc dù có vẻ nhỏ, nhưng điều này mang tính biểu tượng cao: nó chứng minh rằng các mô hình của Trung Quốc có tiềm năng giải quyết các bài toán toán học cấp cao. Ngay cả o3 và o3-mini của OpenAI cũng chỉ đạt được độ chính xác một chữ số đối với các loại câu hỏi này.
Về mặt kỹ thuật, DeepSeek đạt được hiệu năng huấn luyện trước tương đương với Meta Llama 3 chỉ với một phần mười tỷ lệ băm thông qua các kiến trúc tiên tiến như Multi-Head Latent Attention (MLA), Hybrid Expert (MoE) và dự đoán đa đánh dấu . Mô hình suy luận tiếp theo của nó, R1, có hiệu năng sánh ngang với o1 của OpenAI, nhưng với chi phí phát triển thấp hơn nhiều. Điều này khẳng định quan điểm của Epoch AI rằng động lực chính giảm chi phí đào tạo AI không phải là phần cứng rẻ hơn, mà là tối ưu hóa thuật toán và cải thiện dữ liệu.
Các đánh giá của Epoch AI sử dụng API của bên thứ ba (Fireworks cho DeepSeek và Together cho các mô hình còn lại) để đảm bảo tính bảo mật của ngân hàng câu hỏi FrontierMath. Phân tích của Epoch AI cho thấy một số API của bên thứ ba có thể ảnh hưởng nhẹ đến điểm số của mô hình, với các mô hình mới ra mắt bị ảnh hưởng đáng kể hơn. Điều này cho thấy khả năng thực tế của các mô hình Trung Quốc có thể mạnh hơn so với những gì đã được công bố.
Phương pháp giải quyết vấn đề của FrontierMath cũng đáng để tìm hiểu: mô hình gửi một hàm Python `answer` trả về câu trả lời, thường là một số nguyên hoặc một đối tượng sympy. Mô hình có thể suy nghĩ, chạy mã Python và gửi câu trả lời khi tự tin. Mỗi bài toán có giới hạn đánh dấu nghiêm ngặt (giới hạn tối đa 1.000.000 đánh dấu), và hệ thống đánh giá ghi lại và chấm điểm các bài nộp. Giới hạn thời gian để chạy mã bằng các công cụ Python là 30 giây, đảm bảo rằng quá trình đánh giá có thể được xác thực nhiều lần trên phần cứng thương mại.
Dữ liệu cũng cho thấy một xu hướng: bất kỳ khả năng AI tiên tiến nào cũng đều trải qua giai đoạn từ khi xuất hiện đến khi được sử dụng rộng rãi trong vòng chưa đầy một năm. Điều này tạo ra cả cơ hội và thách thức cho các mô hình của Trung Quốc trong việc bắt kịp với nhóm tiên phong: bởi vì chính nhóm tiên phong vẫn đang phát triển nhanh chóng, và việc theo đuổi mục tiêu này không bao giờ kết thúc.
02 Cuộc "chạy đua vũ trang" giữa các mô hình toàn cầu tiên tiến: Từ GPT-5 đến Gemini 3
Khi GPT-5 được phát hành vào năm 2025, nó đã gây ra "sự thất vọng" ở một số thị trường. So với các phiên bản trung gian như Claude 3.7 và Gemini 2.5, sự cải thiện hiệu năng dường như khá hạn chế. Tuy nhiên, dữ liệu của Epoch AI cho thấy bước nhảy vọt của GPT-5 so với GPT-4 gần như tương đương với bước nhảy vọt của GPT-4 so với GPT-3:
MMLU: +43%
TOÁN: +37%
• TruthfulQA: +40%
Đánh giá của HumanEval: +67%
GPQA Diamond: +55%
Toán cấp độ 5: +75%
Kết quả thi thử AIME 24-25: +84%
Lý do cho sự "tác động" giảm sút nằm ở tốc độ phát hành nhanh hơn: phải mất khoảng hai năm từ GPT-3 đến GPT-4, và chỉ một năm từ GPT-4 đến GPT-5. Thị trường đã được "cung cấp" bởi các mô hình trung gian như Claude 3.7, Gemini 2.5 và o1, vì vậy kỳ vọng đối với GPT-5 đương nhiên đã tăng lên.
Gemini 3 Pro cũng gặp khó khăn trong bài kiểm tra hiệu năng FrontierMath, chủ yếu do các vấn đề về độ ổn định của API. Trên ngân hàng câu hỏi cấp độ 1-3, độ chính xác của nó là 38%, nhưng lỗi API dẫn đến mất điểm ở 10 câu hỏi. Trên các câu hỏi siêu khó cấp độ 4, độ chính xác của nó là 19%, với 3 câu hỏi bị ảnh hưởng bởi lỗi API. Epoch AI đã thử lại ít nhất 10 lần để đảm bảo đánh giá nghiêm ngặt. Điều này cho thấy độ ổn định của API đã trở thành một hạn chế đáng kể đối với hiệu suất của các mô hình tiên tiến.
Grok 4 của xAI thậm chí còn gặp phải các vấn đề nghiêm trọng hơn về mạng và thời gian chờ: 8 trong số 48 câu hỏi ở Cấp độ 4 không được chấm điểm chính xác. Epoch AI sử dụng các quy tắc cụ thể để xử lý những vấn đề này trong khi vẫn duy trì khả năng chỉnh sửa hoàn toàn độc lập nhằm đảm bảo tính minh bạch trong quá trình đánh giá.
Hơn nữa, chi phí nghiên cứu và phát triển của OpenAI cho thấy cấu trúc chi phí thực sự: trong ngân sách tỷ lệ băm 5 tỷ đô la vào năm 2024, 90% được phân bổ cho huấn luyện thử nghiệm và nghiên cứu cơ bản, chứ không phải cho việc phát hành cuối cùng của GPT-4.5 hoặc các mô hình khác. Điều này chứng tỏ rằng chi phí cốt lõi để xây dựng các mô hình hàng đầu không phải là "tạo ra mô hình", mà là "tìm ra cách làm". Do đó, khả năng đạt được hiệu suất tương tự với chi phí thấp hơn của DeepSeek xuất phát từ lợi thế dựa trên nền tảng của các phòng thí nghiệm tiên tiến.
03 Khả năng tăng tốc của mô hình AI: Tốc độ phát triển của các mô hình tiên tiến tăng gấp đôi
Khả năng của các mô hình trí tuệ nhân tạo đang được cải thiện với tốc độ chưa từng có.
Dữ liệu mới nhất cho thấy khả năng của các mô hình AI đang được cải thiện với tốc độ chưa từng có. Theo Chỉ số Khả năng Epoch (ECI) của Epoch AI, kể từ tháng 4 năm 2024, các mô hình hàng đầu đã cải thiện với tốc độ gần gấp đôi so với hai năm trước đó trên nhiều tiêu chí đánh giá khác nhau. Cụ thể, mức tăng khả năng hàng năm trước điểm đột phá là khoảng 8 điểm, trong khi mức tăng sau điểm đột phá lên đến khoảng 15 điểm, cho thấy sự tăng tốc đáng kể.
Sự tăng tốc này trùng khớp với một số thay đổi quan trọng: sự phát triển nhanh chóng của các mô hình suy luận (như o1 của OpenAI và R1 của DeepSeek) và sự gia tăng đầu tư vào học tăng cường bởi các phòng thí nghiệm hàng đầu. Điều này cho thấy sự chuyển dịch trong mô hình phát triển AI: không còn chỉ dựa vào huấn luyện trước quy mô lớn, mà thay vào đó sử dụng chiến lược đa chiều gồm huấn luyện trước, tính toán suy luận và học tăng cường để nâng cao khả năng của mô hình.
Xếp hạng ECI của các mô hình chính toàn cầu
Báo cáo của Epoch AI đã theo dõi 149 mô hình tiên tiến từ cuối năm 2021 đến cuối năm 2025, bao gồm tất cả các mô hình tiên tiến cốt lõi. Phân tích sử dụng mô hình tuyến tính từng phần để phù hợp với xu hướng năng lực của các mô hình hàng đầu theo thời gian, xác định "điểm đột phá" tối ưu là tháng 4 năm 2024. Tăng trưởng năng lực trước và sau điểm đột phá lần lượt là 8,2 điểm/năm và 15,3 điểm/năm, thể hiện sự tăng tốc khoảng 1,86 lần. Phân tích thống kê cho thấy tín hiệu tăng tốc này mạnh mẽ và có ý nghĩa, phản ánh tốc độ phát triển thực tế chính xác hơn so với xu hướng tuyến tính đơn giản.
Điều này có nghĩa là sau năm 2024, những cải tiến về hiệu năng của các mô hình tiên tiến sẽ không chỉ tăng lên về mặt tuyệt đối mà còn diễn ra với tốc độ nhanh hơn. Các khoản đầu tư mà các phòng thí nghiệm hàng đầu thực hiện vào tỷ lệ băm, thuật toán và dữ liệu huấn luyện sẽ trực tiếp quyết định khả năng duy trì vị trí dẫn đầu của họ. Đồng thời, điều này cũng đặt ra những yêu cầu cao hơn đối với đội ngũ mã nguồn mở : việc bắt kịp các mô hình mã nguồn đóng trong thời gian ngắn hơn đòi hỏi phải liên tục tối ưu hóa thuật toán và chiến lược huấn luyện.
Tóm lại, tốc độ cải thiện năng lực AI đang tăng tốc, và cuộc đua AI toàn cầu đang bị thu hẹp đáng kể, khiến việc duy trì lợi thế dẫn đầu trong dài hạn trở nên khó khăn.
04 10 xu hướng AI hàng đầu năm 2025: Tác động về công nghệ, kinh tế và xã hội
Năm 2025, Epoch AI đã phát hành 36 bài phân tích dữ liệu và 37 bản tin, tổng cộng 70 cuộc khảo sát ngắn về AI. Nội dung nào thu hút nhiều độc giả nhất? Đánh giá cuối năm cho thấy dữ liệu về độc giả và mức độ tương tác từ các bài phân tích và bản tin này đã giúp chúng tôi xác định được mười xu hướng cốt lõi.
Trong số các cuộc khảo sát phổ biến nhất này, năm cuộc khảo sát hàng đầu cung cấp những thông dữ liệu có liên quan nhất, tiết lộ các xu hướng cốt lõi của ngành như những tiến bộ trong khả năng trí tuệ nhân tạo, phân bổ tỷ lệ băm và những thay đổi về chi phí. Năm cuộc khảo sát tiếp theo phản ánh các xu hướng về chính sách, ứng dụng xã hội và thực tiễn ngành.
Nói cách khác, mười xu hướng hàng đầu năm nay không chỉ đơn thuần do các nhà nghiên cứu thiết lập, mà còn kết hợp với tỷ trọng quan tâm của độc giả và những hiểu biết dữ liệu , tạo nên một bức tranh toàn cảnh về trí tuệ nhân tạo vừa chuyên nghiệp vừa gần gũi với thị trường và công chúng.
Xu hướng 1: Chi phí suy luận đã giảm mạnh, nhưng sự khác biệt giữa nhiệm vụ vẫn còn đáng kể.
Từ tháng 4 năm 2023 đến tháng 3 năm 2025, chi phí suy luận giảm theo cấp số nhân ở cùng mức hiệu năng:
Nhiệm vụ chậm nhất: giảm 9 lần mỗi năm
Nhiệm vụ tốc độ trung bình: giảm 40 lần mỗi năm
Nhiệm vụ nhanh nhất: Giảm 900 lần mỗi năm
Giảm chi phí chủ yếu được thúc đẩy bởi hai yếu tố: sự cạnh tranh thị trường gia tăng (nhiều nhà cung cấp API hơn, giá cả minh bạch hơn) và hiệu quả được cải thiện (các thuật toán suy luận được tối ưu hóa, việc sử dụng phần cứng được tăng cường). Tuy nhiên, tốc độ mà nhiệm vụ khác nhau được hưởng lợi từ những lợi thế về chi phí này lại rất khác nhau: nhiệm vụ đơn giản (như phân loại văn bản) hầu như không tốn chi phí, trong khi nhiệm vụ phức tạp (như suy luận khoa học ở cấp độ tiến sĩ) lại có giảm chi phí chậm hơn. Điều này cho thấy rằng những lợi ích kinh tế do việc phổ biến năng lực AI mang lại không đồng đều cho tất cả nhiệm vụ, và các doanh nghiệp và nhà phát triển vẫn cần tối ưu hóa chiến lược của họ cho các ứng dụng cụ thể.
Xu hướng 2: Khoảng cách giữa phần cứng dành cho người tiêu dùng và các mẫu máy tiên tiến nhất đã thu hẹp xuống còn 7 tháng.
Epoch AI nhận thấy rằng khoảng cách giữa mô hình mã nguồn mở tốt nhất chạy trên một GPU cấp người tiêu dùng duy nhất (như RTX 4090 và RTX 5090) và mô hình tiên tiến nhất hiện nay đã được thu hẹp xuống còn khoảng 7 tháng.
Điều này có nghĩa là hàng tỷ người dùng có thể chạy AI tiên tiến nhất trên máy tính cá nhân của họ; các công ty chỉ dựa vào khả năng của các mô hình cố định sẽ khó duy trì lợi thế cạnh tranh về lâu dài; và về mặt chính sách, "các rào cản công nghệ" khó có thể ngăn cản sự lan tỏa các khả năng này.
Xu hướng này làm nổi bật tác động Sự lật đổ của AI mã nguồn mở : các khả năng tiên tiến đang nhanh chóng trở nên phổ biến, cơ hội cạnh tranh trên thị trường đang thu hẹp, và lợi thế đổi mới cần dựa vào sự cải tiến liên tục và khả năng dịch vụ tổng thể, thay vì hiệu suất của một mô hình duy nhất.
Xu hướng 3: Tỷ lệ băm của OpenAI chủ yếu được đầu tư vào các thí nghiệm, với chi phí nghiên cứu và phát triển vượt xa chi phí đào tạo.
Dữ liệu của Epoch AI cho thấy phần lớn tỷ lệ băm của OpenAI trong năm 2024 không được sử dụng trực tiếp cho việc suy luận mô hình hoặc huấn luyện cuối cùng, mà là để hỗ trợ các hoạt động thử nghiệm và nghiên cứu phát triển. Cơ cấu chi tiêu cụ thể như sau (tất cả các con số đều là chi phí tỷ lệ băm đám mây):
Tỷ lệ băm nghiên cứu cơ bản và thử nghiệm: khoảng 4,5 tỷ đô la, bao gồm nghiên cứu cơ bản, các hoạt động thử nghiệm/tránh rủi ro(để chuẩn bị cho quá trình đào tạo cuối cùng) và các mô hình chưa được công bố.
Chương trình huấn luyện cuối cùng GPT-4.5: khoảng 400 triệu đô la (khoảng tin cậy 90%: 170 triệu đô la – 890 triệu đô la)
Chi phí đào tạo mô hình khác: khoảng 80 triệu đô la (bao gồm GPT-4o, GPT-4o mini, Sora Turbo và các bản cập nhật GPT-4o cũng như đào tạo sau sê-ri O; khoảng tin cậy 90%: 24 triệu đô la – 435 triệu đô la)
Tổng tỷ lệ băm nghiên cứu và phát triển: 5 tỷ đô la
Tỷ lệ băm suy luận: 2 tỷ đô la (không bao gồm chi phí Microsoft phải bỏ ra để vận hành các mô hình OpenAI cho các sản phẩm của riêng mình)
Điều này cho thấy việc phát triển AI đòi hỏi vốn đầu tư cực kỳ lớn, yêu cầu các nhà lãnh đạo phải dành tỷ lệ băm lượng lớn cho việc khám phá và thử nghiệm, chứ không chỉ là huấn luyện và triển khai cuối cùng. Phần lớn chi phí được dành cho việc "tìm ra cách thức", chứ không phải trực tiếp tạo ra một mô hình. Điều này cũng giải thích tại sao một số mô hình mã nguồn mở hoặc mới nổi có thể đạt được hiệu suất gần như hoàn hảo với chi phí thấp hơn: chúng dựa trên nền tảng của các phòng thí nghiệm tiên tiến, bỏ qua lượng lớn giai đoạn thử và sai.
Nói cách khác, chiến lược sử dụng tỷ lệ băm của OpenAI thể hiện giá trị to lớn của chính hoạt động nghiên cứu và phát triển: thử nghiệm là cốt lõi để thúc đẩy những đột phá trong khả năng của trí tuệ nhân tạo, trong khi đào tạo và triển khai chỉ là một phần của kết quả.
Xu hướng 4: Lượng tỷ lệ băm của Nvidia tăng gấp đôi sau mỗi 10 tháng.
Kể từ năm 2020, tỷ lệ băm AI được cài đặt trên toàn cầu của NVIDIA tăng trưởng khoảng 2,3 lần mỗi năm, với các chip chủ lực mới chiếm phần lớn tỷ lệ băm hiện có trong vòng ba năm kể từ khi ra mắt.
Ra mắt năm 2022, H100 trở nên phổ biến vào năm 2025, và các chip thế hệ tiếp theo như H200 và B100 sẽ tiếp quản thị trường từ năm 2026 đến năm 2028.
Sự tăng trưởng theo cấp số nhân của tỷ lệ băm là điều kiện tiên quyết để duy trì sự tiến bộ của khả năng trí tuệ nhân tạo, nhưng nó cũng làm gia tăng áp lực lên Chuỗi cung ứng: tình trạng thiếu chip hoặc gián đoạn hậu cần sẽ ảnh hưởng trực tiếp đến khả năng huấn luyện và suy luận mô hình. Epoch AI nhấn mạnh rằng "cuộc chạy đua vũ trang tỷ lệ băm" này sẽ tiếp tục và là yếu tố cốt lõi hỗ trợ tốc độ phát triển của trí tuệ nhân tạo.
Xu hướng 5: GPT-5 tiếp tục có những bước tiến vượt bậc trong các bài kiểm tra hiệu năng, nhưng tác động đến thị trường còn hạn chế.
Dữ liệu của Epoch AI cho thấy cả GPT-4 và GPT-5 đều đạt được những cải tiến đáng kể so với các phiên bản tiền nhiệm trong các bài kiểm tra chuẩn quan trọng. Ví dụ, trong các bài kiểm tra chính như MMLU, MATH, TruthfulQA, HumanEval, GPQA Diamond, MATH Level 5 và Mock AIME 24-25, hiệu suất của GPT-4 được cải thiện so với GPT-3 từ 37% đến 84%, trong khi sự cải thiện của GPT-5 trên cùng các bài kiểm tra chuẩn này gần như tương đương với GPT-4, củng cố thêm địa vị dẫn đầu của nó trong số các mô hình AI tiên tiến.
Mặc dù GPT-5 thể hiện sự cải thiện hiệu năng đáng kể so với GPT-4, một số người tham gia thị trường cảm thấy nó thiếu "yếu tố gây ấn tượng mạnh". Phân tích của Epoch AI cho rằng điều này chủ yếu là do tốc độ phát hành mô hình được đẩy nhanh trong hai năm qua, chứ không phải do sự chậm lại trong tăng trưởng khả năng. Bước nhảy vọt từ GPT-3 lên GPT-4 mất khoảng hai năm, trong khi bước nhảy vọt từ GPT-4 lên GPT-5 chỉ mất một năm, do đó làm tăng kỳ vọng của công chúng đối với GPT-5, mặc dù bước nhảy vọt về hiệu năng thực tế vẫn rất đáng kể.
Xu hướng này cho thấy khả năng của AI vẫn đang tăng trưởng nhanh chóng, nhưng việc thường xuyên cập nhật các phiên bản trung gian có thể dễ dàng dẫn đến sự khác biệt giữa nhận thức của công chúng về "sự cải thiện hiệu năng" và tình hình thực tế.
Xu hướng 6: Một truy vấn ChatGPT lần tiêu thụ ít năng lượng hơn năm phút chiếu sáng của một bóng đèn.
Josh đã ước tính mức tiêu thụ năng lượng trung bình của một truy vấn GPT-4o duy nhất, cho thấy nó ít hơn năng lượng cần thiết để thắp sáng một bóng đèn trong năm phút. Ước tính này sau đó đã được Sam Altman xác nhận và tương tự với dữ liệu tiêu thụ năng lượng lần truy vấn của mô hình Gemini của Google.
Mức tiêu thụ năng lượng của trí tuệ nhân tạo (AI) luôn là tâm điểm chú ý của công chúng. Dữ liệu này giúp định lượng chi phí bằng cách so sánh mức tiêu thụ năng lượng của AI trong bối cảnh các hoạt động sinh hoạt hàng ngày: mức tiêu thụ năng lượng của một truy vấn lần tương đối nhỏ. Tuy nhiên, với sự tăng trưởng theo cấp số nhân trong việc sử dụng toàn cầu, tổng mức tiêu thụ năng lượng của AI tiếp tục tăng và có thể trở thành một vấn đề nghiêm trọng hơn trong tương lai.
Xu hướng 7: DeepSeek tối ưu hóa kiến trúc Transformer để đạt được chi phí thấp và hiệu suất cao.
Vào năm 2025, đội ngũ DeepSeek đã đề xuất ba công nghệ chủ chốt trong bài báo v3 của họ, cho phép mô hình được huấn luyện trước mã nguồn mở đạt được hiệu suất hàng đầu vào thời điểm đó, trong khi chỉ cần một phần mười tỷ lệ băm so với mô hình mã nguồn mở tốt nhất tiếp theo, Llama 3. Các công nghệ này bao gồm:
Cơ chế chú ý tiềm ẩn đa đầu (MLA) – Giảm dung lượng bộ nhớ suy luận và cải thiện hiệu quả tính toán.
Đổi mới kiến trúc chuyên gia lai (MoE) – Cải thiện việc sử dụng tham số mô hình
Dự đoán đa đánh dấu– giúp tăng tốc quá trình huấn luyện và nâng cao hiệu quả học tập.
Chỉ ba ngày sau, DeepSeek đã phát hành mô hình suy luận R1 của mình, có hiệu năng tương đương với o1 của OpenAI, nhưng với chi phí thấp hơn nhiều.
Nghiên cứu trường hợp này chứng minh một xu hướng về hiệu quả tỷ lệ băm trong đào tạo AI: thông qua đổi mới thuật toán và tối ưu hóa dữ liệu, chi phí phát triển mô hình có thể giảm khoảng ba lần mỗi năm. Nói cách khác, với những cải tiến trong kỹ thuật đào tạo và dữ liệu, các mô hình tiên tiến có thể nhanh chóng bắt kịp kết quả tốt nhất từ các phòng thí nghiệm về hiệu suất mà không cần dựa vào tỷ lệ băm khổng lồ. Điều này không chỉ cung cấp một con đường khả thi cho các mô hình mã nguồn mở mà còn thúc đẩy sự cải thiện về chất lượng về hiệu quả và chi phí trên toàn ngành.
Xu hướng 8: Cơ hội mở rộng các mô hình suy luận có thể chỉ còn 1-2 năm nữa.
Josh đã phân tích sự tăng trưởng tỷ lệ băm trong huấn luyện suy luận cho học tăng cường (RL). Các phòng thí nghiệm hàng đầu như OpenAI và Anthropic đã chỉ ra vào đầu năm 2025 rằng tốc độ mở rộng của loại học tăng cường này không thể duy trì lâu dài và có thể đạt đến giới hạn của cơ sở hạ tầng tỷ lệ băm trong vòng 1-2 năm.
Khả năng suy luận đã trở thành yếu tố cốt lõi trong việc nâng cao hiệu suất mô hình AI, đặc biệt là trong nhiệm vụ toán học, lập trình và suy luận phức tạp. Tuy nhiên, mở rộng hơn nữa khả năng này đang gặp phải những trở ngại về phần cứng và chi phí, điều này có nghĩa là giai đoạn tăng trưởng bùng nổ dự kiến vào năm 2024-2025 có thể đang chậm lại. Để duy trì lợi thế cạnh tranh, các công ty cần tìm ra những con đường tăng trưởng mới, chẳng hạn như sử dụng dữ liệu hiệu quả hơn, kiến trúc mô hình tốt hơn hoặc đạt được những đột phá về hiệu suất thông qua "nghiên cứu và phát triển AI có sự hỗ trợ của AI" mang tính đệ quy.
Khả năng tăng trưởng hạn chế của năng lực suy luận nhắc nhở ngành công nghiệp rằng tỷ lệ băm không phải là vô hạn và việc cải thiện hiệu năng có giới hạn. Cạnh tranh trong tương lai sẽ dựa nhiều hơn vào sự đổi mới thuật toán, tối ưu hóa dữ liệu và các chiến lược nghiên cứu và phát triển hơn là chỉ đơn thuần tăng cường tỷ lệ băm.
Xu hướng thứ chín: "Dự án Manhattan về trí tuệ nhân tạo" có tiềm năng đáng kinh ngạc
Một phân tích của Epoch AI cho thấy rằng nếu Hoa Kỳ thiết lập một dự án trí tuệ nhân tạo cấp quốc gia có quy mô tương tự như Dự án Manhattan hoặc Chương trình Apollo, thì quy mô đào tạo của nó có thể lớn hơn khoảng 10.000 lần so với GPT-4.
Vào tháng 11 năm 2024, Ủy ban Đánh giá Kinh tế và An ninh Mỹ-Trung đã khuyến nghị Quốc hội "thành lập và tài trợ cho các dự án trí tuệ nhân tạo (AI) tương tự như Dự án Manhattan để cạnh tranh về khả năng trí tuệ nhân tạo tổng quát". Ý tưởng này cho thấy rằng đầu tư quốc gia tập trung về mặt lý thuyết có thể đạt được quy mô tỷ lệ băm AI chưa từng có, nhưng nó cũng đặt ra hai câu hỏi lớn: đầu tư và lợi nhuận - vẫn chưa chắc chắn liệu hàng trăm tỷ đô la tài trợ có mang lại những đột phá thực sự về trí tuệ nhân tạo tổng quát hay không; và những thách thức về kỹ thuật và quản lý, bởi vì việc đào tạo quy mô lớn như vậy không chỉ đòi hỏi tỷ lệ băm mà còn cả dữ liệu, tối ưu hóa thuật toán, hỗ trợ phần cứng và sự phối hợp giữa các cơ quan.
Xu hướng này cho thấy tiềm năng to lớn trong việc mở rộng khả năng của trí tuệ nhân tạo, đồng thời nhắc nhở các nhà hoạch định chính sách và công chúng rằng mặc dù các dự án cấp quốc gia có tiềm năng, nhưng tính khả thi và rủi ro của chúng cần được đánh giá cẩn thận.
Xu hướng 10: Giá trị của AI chủ yếu đến từ việc tự động hóa rộng rãi, chứ không phải từ việc đẩy nhanh nghiên cứu khoa học.
Nhiều luận điểm về tăng trưởng nổ của trí tuệ nhân tạo (AI), chẳng hạn như những luận điểm của Sam Altman , Demis Hassabis và Dario Amodei, quan điểm cho rằng tự động hóa nghiên cứu và phát triển là đòn bẩy quan trọng thúc đẩy sự tiến bộ nhanh chóng của AI. Điều này ngụ ý rằng AI có thể nhanh chóng và rõ rệt tác động đến các lĩnh vực cụ thể, chẳng hạn như tự động hóa các giai đoạn cuối cùng của nghiên cứu, từ đó dẫn đến những đột phá nhanh chóng trong các công ty AI.
Tuy nhiên, tác động của AI lên xã hội nhiều khả năng sẽ diễn ra một cách phân tán và dần dần : khi các tổ chức khác nhau áp dụng AI để nâng cao hiệu quả, tác động của nó sẽ dần dần xuất hiện trong nhiều năm hoặc thậm chí nhiều thập kỷ. Điều này cho thấy các nhà hoạch định chính sách và các nhà ra quyết định kinh doanh nên tập trung vào việc ứng dụng rộng rãi và cải thiện hiệu quả của AI trong các ngành công nghiệp, thay vì chỉ hy vọng vào những phép màu khoa học ngắn hạn.
Nhìn chung, khả năng của AI vẫn đang tăng tốc, tỷ lệ băm, thuật toán, dữ liệu và học tăng cường liên tục thúc đẩy sự tiến bộ của mô hình; chi phí tiếp tục giảm, tạo cơ hội cho mã nguồn mở và đội ngũ vừa và nhỏ bắt kịp; tuy nhiên, mức tiêu thụ năng lượng, tắc nghẽn tỷ lệ băm, sự khác biệt trong đánh giá và giới hạn khả năng vẫn là những thực tế mà ngành công nghiệp phải đối diện.
Sự phát triển của trí tuệ nhân tạo trong tương lai sẽ thể hiện hai đặc điểm : một mặt, khả năng và hiệu quả sẽ tiếp tục được cải thiện, và các phòng thí nghiệm tiên tiến sẽ không ngừng vượt qua giới hạn; mặt khác, sự lặp lại nhanh chóng, kỳ vọng của thị trường và sự không chắc chắn trong các chính sách và quy định sẽ tạo ra một hoàn cảnh cạnh tranh năng động cao cho toàn ngành.
Như Epoch AI đã chứng minh, ngành công nghiệp AI liên tục viết lại câu chuyện của chính mình giữa sự nhiệt tình và tính hợp lý: từ "các mô hình lớn hơn" đến "các thuật toán tốt hơn", từ "độc quyền mã nguồn đóng" đến "cơn sốt mã nguồn mở", và từ "cuộc chạy đua vũ trang tỷ lệ băm" đến "cuộc cách mạng hiệu quả". Chỉ thông qua dữ liệu và phân tích, công chúng mới có thể giữ được sự tỉnh táo giữa biển thông tin và hiểu được tốc độ thực sự cũng như tác động tiềm tàng của sự phát triển AI.
Bài viết này được đăng tải trên Tencent Technology , do Wuji dịch, Boyang biên tập và được 36Kr cho phép xuất bản.



