AI trong nước đã chiếm lĩnh thị trường nước ngoài chỉ sau một đêm, 2.000 GPU đã được sử dụng để tạo ra sự thay thế cho GPT-4o và các ông chủ AI đã hết lời ca ngợi nó.

avatar
36kr
12-27
Bài viết này được dịch máy
Xem bản gốc

Một đêm, các mô hình lớn của Trung Quốc đã khoe cơ bắp một cách mạnh mẽ trên trường quốc tế.

Gần đây, nhà sản xuất mô hình lớn trong nước DeepSeek đã công bố phiên bản đầu tiên của DeepSeek-V3 được ra mắt và mã nguồn mở đồng thời.

Nhiều bài kiểm tra chuẩn cho thấy, DeepSeek-V3 vượt qua các mô hình nguồn mở khác như Qwen2.5-72B và Llama-3.1-405B, và ngang bằng về hiệu suất với GPT-4o và Claude-3.5-Sonnet.

Một báo cáo kỹ thuật cho biết, giai đoạn tiền huấn luyện của mô hình này chỉ sử dụng 2.048 GPU trong 2 tháng và chỉ tốn 5,576 triệu USD.

Chi phí thấp tạo ra giá trị cao. DeepSeek-V3 được coi là niềm tự hào quốc gia đã trực tiếp nhận được sự ủng hộ từ nhiều chuyên gia AI ở nước ngoài.

Hãy thức tỉnh, Deepseek, bây giờ bạn đã thực sự nổi tiếng.

Địa chỉ trải nghiệm: chat.deepseek.com

Trải nghiệm sử dụng DeepSeek-V3, lần này thực sự khác biệt

  • Kiến thức bách khoa: DeepSeek-V3 có mức độ trong các nhiệm vụ kiến thức (MMLU, MMLU-Pro, GPQA, SimpleQA) đáng kể hơn so với phiên bản DeepSeek-V2.5 trước đây, tiếp cận với mô hình có hiệu suất tốt nhất hiện nay là Claude-3.5-Sonnet-1022.
  • Văn bản dài: Trong đánh giá văn bản dài, DeepSeek-V3 có hiệu suất trung bình vượt trội so với các mô hình khác trên DROP, FRAMES và LongBench v2.
  • Mã: DeepSeek-V3 dẫn đầu xa so với tất cả các mô hình không phải o1 trên thị trường trong các kịch bản mã thuật toán (Codeforces); và tiếp cận gần với Claude-3.5-Sonnet-1022 trong các kịch bản mã kỹ thuật (SWE-Bench Verified).
  • Toán học: Trên các cuộc thi toán học Mỹ (AIME 2024, MATH) và Cuộc thi toán học quốc gia (CNMO 2024), DeepSeek-V3 vượt trội so với tất cả các mô hình nguồn mở và không nguồn mở.
  • Khả năng tiếng Trung: DeepSeek-V3 có hiệu suất tương tự Qwen2.5-72B trên các bộ đánh giá giáo dục C-Eval và connotation, nhưng vượt trội hơn trong bộ đánh giá kiến thức sự kiện C-SimpleQA.

Sau khi ra mắt, DeepSeek-V3 đã gây ra phản ứng rất lớn trong và ngoài nước.

Thành viên cũ của Google Search, Deedy, trực tiếp tuyên bố rằng DeepSeek V3 là mô hình lớn mạnh nhất trên toàn cầu.

Hiệu quả của DeepSeek-V3 cũng được chứng nhận bởi Andrej Karpathy, một nhà thần kinh trước đây của OpenAI:

"Điều này có nghĩa là phát triển LLM tiên tiến không cần cụm GPU lớn? Không phải vậy, nhưng bạn phải đảm bảo sử dụng tài nguyên một cách hiệu quả. Kết quả này là một ví dụ tuyệt vời cho thấy vẫn còn nhiều cơ hội để tối ưu hóa dữ liệu và thuật toán."

Nhà khoa học nghiên cứu AI của Meta, Tian Yuandong, phấn khích tweet hai lần:

"Đọc báo cáo, phát hiện ra họ đã thực hiện một sự phá vỡ đáng kinh ngạc từ đầu với H800 🤯

Tiền huấn luyện FP8, MoE, đạt hiệu suất mạnh mẽ với ngân sách rất hạn chế, hướng dẫn khởi động bằng CoT... Wow, đây thực sự là một công việc tuyệt vời 👏👏 👍👍"

Người dùng X Tom Dörr sau khi trải nghiệm thì nói rằng DeepSeek V3 quá thông minh, thậm chí không cần giải thích cũng hiểu ý tôi muốn nói, cảm giác như có ma ẩn bên trong máy.

Vẫn còn những cao thủ khác. Có người dùng trực tiếp xếp chồng 4/8 chiếc M4 Mac mini để chạy DeepSeek-V3. Cũng có nhà phát triển sử dụng DeepSeek-V3 để tạo ra một trò chơi nhỏ trong chớp mắt.

So với ChatGPT, Claude ở nước ngoài, DeepSeek-V3 miễn phí cho mọi người và hiện đã có thể sử dụng ở Trung Quốc. Tôi đã thử trải nghiệm sơ bộ.

Thực sự, tốc độ phản hồi của DeepSeek-V3 khiến tôi bất ngờ. Phiên bản trước đây v2.5 chỉ tạo được 20 Token mỗi giây (tương đương khoảng 7-8 chữ Hán), trong khi phiên bản mới v3 đã tăng tốc lên 60 Token mỗi giây, tăng gấp 3 lần.

Ví dụ, v2.5 giống như nhịp độ nói chuyện bình thường của con người, còn v3 thì như một MC đã được đào tạo đang nhanh chóng đọc tin tức.

Tuy nhiên, DeepSeek-V3 không hỗ trợ đầu vào và đầu ra đa phương thức, có lẽ phải đợi thêm một thời gian nữa. Sau khi trải nghiệm, những câu hỏi như "9.8 lớn hơn hay 9.11 lớn hơn" và "có bao nhiêu chữ r trong từ strawberry" đã không còn khó khăn với nó nữa.

Hãy thử thách nó thêm một chút.

"Tôi có 6 quả trứng, đã vỡ 2 quả, chiên 2 quả, ăn 2 quả, còn lại bao nhiêu quả?"

DeepSeek-V3 thì nhanh nhưng vẫn mắc kẹt trong bẫy câu đố (2 quả), trong khi GPT-4o lại trả lời đúng (4 quả), vòng này GPT-4o thắng.

Gần đây, các câu hỏi kiểm tra EQ rất hot trên nền tảng X, chúng tôi cũng thử với cả hai.

Có thể thấy, GPT-4o và DeepSeek-V3 đều rất thích số 42.

Rất tốt, cả hai đều không bị rối bởi các câu hỏi logic.

"Nếu ngày mai trời nắng, thì hôm nay tôi sẽ đi cắm trại ngoài trời. Nếu hôm nay tôi đi cắm trại ngoài trời, thì ngày mai chắc chắn trời sẽ nắng?"

Về việc DeepSeek-V3 có thiên về một lĩnh vực nào đó không, chúng tôi cũng để GPT-4o ra một bài toán toán học cho cả DeepSeek-V3 và Claude-3.5-Sonnet.

"Cho hàm f(x,y) = x^3 + 3xy^2 - 3x - y^3 + 2y. Tìm gradient của hàm tại điểm (1,1) và xác định xem đó có phải là điểm cực trị hay không, nếu là điểm cực trị thì là cực đại, cực tiểu hay điểm鞍?"

Sau một lúc, DeepSeek-V3 và Claude-3.5-Sonnet đã lần lượt đưa ra câu trả lời của mình.

Ai chẳng phải chỉ biết tiêu tiền, vậy DeepSeek-V3 đã làm được điều gì?

Mở ra báo cáo kỹ thuật của DeepSeek-V3, tôi chỉ thấy một từ duy nhất: sáng tạo.

DeepSeek-V3 là mô hình MoE tự phát triển, với 671B tham số, kích hoạt 37B, được tiền huấn luyện trên 14,8T Token.

Kiến trúc MoE dễ hiểu, giống như một công ty có các chuyên gia ở các bộ phận khác nhau (như tài chính, kỹ thuật, marketing, v.v.), mỗi chuyên gia đều thông thạo lĩnh vực của mình, nhưng không cần xử lý tất cả công việc.

Mỗi "chuyên gia" trong mô hình MoE cũng vậy, chuyên xử lý các loại nhiệm vụ cụ thể, khi gặp nhiệm vụ, có thể thông minh huy động chuyên gia phù hợp nhất để giải quyết vấn đề cụ thể.

Dựa trên hiệu quả cao của tiền thân DeepSeek-V2, mô hình này tích hợp Chú ý Tiềm ẩn Đa đầu (Multi-head Latent Attention, MLA) và kiến trúc DeepSeekMoE, từ đó đạt được tối ưu hóa chi phí và suy luận hiệu quả.

Báo cáo cũng đề cập đến hai sáng tạo then chốt của DeepSeek-V3.

Đó là một chiến lược cân bằng tải không cần mất mát phụ trợ và một mục tiêu đào tạo Dự đoán Đa Token (Multi-Token Prediction, MTP).

Hai nghìn GPU, hai tháng thời gian, DeepSeek đã chứng minh một cách thanh lịch tầm quan trọng của đổi mới công nghệ.

Cụ thể, mô hình này hoàn thành việc tiền huấn luyện trên hơn 14,8 nghìn tỷ Token đa dạng và chất lượng cao, sau đó tiếp tục tối ưu hóa hiệu suất thông qua Tinh chỉnh Giám sát (SFT) và Học tập Tăng cường (RL).

Giai đoạn tiền huấn luyện trên cụm 2048 GPU H800 chỉ mất dưới hai tháng, tổng cộng 2.664.000 GPU-giờ.

Thông qua tối ưu hóa thuật toán, thiết kế đồng bộ khung và phần cứng, tổng chi phí đào tạo của DeepSeek-V3 là 5.576.000 USD, bao gồm cả giai đoạn tiền huấn luyện, mở rộng chiều dài ngữ cảnh và các giai đoạn đào tạo tiếp theo.

Danh sách đóng góp và cảm ơn trong báo cáo kỹ thuật đều là tên tiếng Trung.

Để biết thêm chi tiết, vui lòng tham khảo báo cáo kỹ thuật: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

Đối với nhà phát triển, giá dịch vụ API của DeepSeek-V3 cũng sẽ được điều chỉnh thành 0,5 NDT (trúng bộ nhớ cache) / 2 NDT (không trúng bộ nhớ cache) mỗi triệu Token đầu vào, và 8 NDT mỗi triệu Token đầu ra.

Quan trọng hơn, DeepSeek, với mục tiêu phổ cập AGI, đã đầu tiên mở ra các trọng số gốc của DeepSeek-V3 được đào tạo bằng FP8.

Nhờ sự hỗ trợ của cộng đồng mã nguồn mở, SGLang và LMDeploy đã hỗ trợ suy luận FP8 gốc của mô hình V3 ngay lập tức, trong khi TensorRT-LLM và MindIE đã thực hiện suy luận BF16.

Ngoài ra, để thuận tiện cho cộng đồng thích ứng và mở rộng các ứng dụng, DeepSeek chính thức cũng cung cấp các tập lệnh chuyển đổi từ FP8 sang BF16.

Để tải về trọng số mô hình và thông tin triển khai cục bộ, vui lòng tham khảo: https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

Có thể nói, ông già Noel năm nay đến từ DeepSeek của Trung Quốc.

Và món quà Giáng sinh này từ Trung Quốc đã cho thế giới chứng kiến tốc độ AI của Trung Quốc.

Ở nước ngoài có Meta, ở Trung Quốc có các nhà sản xuất trong nước như DeepSeek, Zhipu, Mianbi, sự hiện diện của Trung Quốc trong cộng đồng mã nguồn mở cũng ngày càng tăng lên.

Khi ngày càng nhiều nhà sản xuất đổ công sức vào sự phồn thịnh của nguồn mở Trung Quốc, họ cũng đang kêu gọi sự trở về của sự trong sáng và lòng vị tha này.

Nếu như việc ChatGPT gặp sự cố tắt máy một lần nữa vào sáng nay nhắc nhở chúng ta về tầm quan trọng của đa dạng hóa mô hình AI, thì lần tới, chúng ta sẽ có thêm một lựa chọn đáng tin cậy.

Đó chính là DeepSeek-V3 đến từ Trung Quốc.

Một điều nữa

Gần đây, trình tạo bản ghi trò chuyện ChatGPT o3 đang rất nổi, chúng tôi cũng đã tạo ra một giao diện trò chuyện theo xu hướng này.

Nếu o3 đã nói như vậy, thì bây giờ không thể không tin nữa (vỗ đầu chó).

Đây là đường dẫn trải nghiệm: https://chatgpt-meme-generator.vercel.app/

Bài viết này đến từ tài khoản WeChat công khai "APPSO", tác giả: Phát hiện sản phẩm của ngày mai, 36Kr đã được ủy quyền đăng tải.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận