DeepSeek đã trang bị cho trí tuệ nhân tạo một "ngón tay ảo" để nó có thể nhìn thấy.

avatar
MarsBit
05-01
Bài viết này được dịch máy
Xem bản gốc

Văn bản | Trí tuệ nhân tạo (AI)

Vào đêm trước ngày Quốc tế Lao động, DeepSeek bất ngờ công bố một báo cáo công nghệ đa phương thức hình ảnh.

Trước khi nhấp chuột, tôi đã có một kỳ vọng chung trong đầu, đó đơn giản là tầm nhìn xa và độ rõ nét của hình ảnh.

Tóm lại, trong năm qua, các mô hình đa phương thức về cơ bản đã và đang hướng đến mục tiêu này. OpenAI đề cập đến việc tư duy bằng hình ảnh, cho phép các mô hình cắt, phóng to và xoay hình ảnh trong quá trình suy luận; Gemini và Claude cũng đang cố gắng giúp các mô hình xử lý đầu vào hình ảnh có độ phân giải cao hơn và phức tạp hơn.

Quan niệm phổ biến cho rằng mô hình càng chi tiết thì khả năng suy luận trực quan càng mạnh mẽ.

Nhưng sau khi đọc báo cáo của DeepSeek, bạn sẽ thấy rằng họ đã đi theo một con đường hoàn toàn khác.

DeepSeek không tập trung vào việc "giúp mô hình nhìn thấy nhiều pixel hơn"; họ tập trung vào một vấn đề cơ bản hơn.

Ngay cả khi mô hình đã nhận diện rõ ràng mục tiêu, làm thế nào bạn có thể đảm bảo rằng mô hình và bạn đang cùng hướng đến một đối tượng trong quá trình suy luận?

Đây thực chất là điểm yếu chí mạng dễ bị bỏ qua nhất trong lập luận đa phương thức.

Khi nhìn vào hình ảnh, con người có thể dùng ngón tay để đánh dấu các đối tượng. Ví dụ, họ có thể nói "người này là A" hoặc "người kia là B". Nhưng làm thế nào một mô hình có thể biết bạn đang nói đến người nào?

Mô hình chỉ có thể sử dụng ngôn ngữ để nói "cái bên trái", "cái ở trên" hoặc "dòng này". Khi hình ảnh trở nên phức tạp hơn, các tham chiếu ngôn ngữ sẽ bị lệch hướng, và khả năng lập luận sẽ sụp đổ.

Vì vậy, DeepSeek đề xuất, tại sao không chỉ cần đưa cho mô hình một "ngón tay"?

Nó biến các điểm và hộp giới hạn thành các đơn vị cơ bản của tư duy mô hình, cho phép mô hình suy luận trong khi chỉ vào các đối tượng bằng ngón tay ảo này.

01 Từ tầm nhìn liên tục đến các ký hiệu rời rạc

Trong báo cáo kỹ thuật này, DeepSeek đã nêu ra một câu hỏi rất thú vị. Họ cho rằng rằng thách thức thực sự của các mô hình đa phương thức không phải là việc nhìn thấy hình ảnh, mà là việc liên tục chỉ vào cùng một đối tượng trực quan trong quá trình suy luận liên tục.

Ví dụ, bạn nói với bạn mình, "Ở chợ, quầy hàng của bà Trương bán rau tươi nhất." Nhưng ở chợ có rất nhiều người lớn tuổi, vậy ai mới là bà Trương?

Nhưng nếu bạn chỉ cần chỉ tay và nói "đúng rồi đấy", bạn của bạn sẽ hiểu ngay.

DeepSeek đặt tên cho vấn đề này là "Khoảng trống tham chiếu".

Trong năm qua, hầu hết các mô hình đa phương thức tiên tiến đều đang giải quyết vấn đề "khoảng cách nhận thức".

Hãy tưởng tượng một bức ảnh được đặt trước mặt bạn. Nếu bức ảnh quá mờ hoặc có độ phân giải quá thấp, bạn có thể không nhìn rõ được chữ nhỏ hoặc các chi tiết ở xa. Điều tương tự cũng áp dụng cho trí tuệ nhân tạo (AI). Nếu chất lượng hình ảnh đầu vào không đủ hoặc phương pháp xử lý không chính xác, nó sẽ "không thể nhìn rõ", đó chính là khoảng cách nhận thức.

Các mô hình như GPT, Claude và Gemini liên tục cải thiện độ phân giải bằng cách giới thiệu các kỹ thuật cắt xén độ phân giải cao, phân đoạn động và xử lý đa tỷ lệ, tất cả nhằm mục đích giúp mô hình nhận biết được nhiều chi tiết hơn.

Hướng đi này chắc chắn rất có giá trị, nhưng DeepSeek chỉ ra trong báo cáo rằng ngay cả khi mô hình nhìn nhận mọi thứ rất rõ ràng, những sai sót về mặt logic vẫn có thể xảy ra trong nhiệm vụ suy luận không gian phức tạp.

Vấn đề nằm ở chính ngôn ngữ tự nhiên.

Trong ảnh có hơn chục con chó. Nếu bạn nói "con chó bên trái", người mẫu sẽ không hiểu bạn đang nói đến con nào.

Điều thú vị hơn nữa là nếu bạn yêu cầu mô hình đếm số lượng chó trong một bức ảnh, mô hình có thể dễ dàng bị nhầm lẫn trong quá trình suy luận về việc nó đã đếm con chó nào và chưa đếm con nào.

Báo cáo cũng đề cập đến những trường hợp đặc biệt như định hướng trong mê cung, nơi ngôn ngữ thuần túy không thể mô tả chính xác các đường đi có hình dạng bất thường và các mối quan hệ tôpô phức tạp.

Ngôn ngữ, với tư cách là một công cụ tham chiếu, vốn dĩ mơ hồ trong không gian thị giác liên tục. Nó vượt trội trong việc diễn đạt các khái niệm trừu tượng và mối quan hệ nhân quả, nhưng sức mạnh biểu đạt của nó về cơ bản bị hạn chế về vị trí không gian và các mối quan hệ tôpô.

Nhưng DeepSeek là một mô hình ngôn ngữ đa năng, vậy vấn đề này nên được giải quyết như thế nào?

Như vậy, "ngón tay" được đề cập ở đầu bài viết đã ra đời.

Khái niệm cốt lõi của họ là "Các yếu tố hình ảnh cơ bản", cụ thể là nâng hai đánh dấu không gian cơ bản nhất trong thị giác máy tính—các hộp giới hạn và các điểm—lên thành "các đơn vị tư duy nhỏ nhất".

Mặc dù các mô hình đa phương thức cũ hơn cũng có thể vẽ khung bao và gắn nhãn đối tượng, nhưng chúng chỉ hiển thị kết quả cuối cùng, chứng minh "Tôi đã tìm thấy nó." Điều này giống như việc nộp bài kiểm tra mà không viết ra quy trình giải.

Một số nghiên cứu cũng chỉ ra rằng AI vẽ các ô vuông trong quá trình tư duy, nhưng mục đích chỉ đơn giản là để "nhìn nhận chính xác hơn", và các ô vuông chỉ là công cụ hỗ trợ. Điều này giống như việc sử dụng giấy nháp khi giải toán; giấy nháp chỉ giúp bạn tính toán rõ ràng hơn, chứ không phải là một phần của quá trình giải quyết vấn đề.

DeepSeek làm một việc hoàn toàn khác.

Họ đã tích hợp trực tiếp đánh dấu không gian này vào quá trình suy luận của mô hình, biến chúng thành một phần không thể thiếu của quá trình suy luận. Khi mô hình suy nghĩ, nó không chỉ mô tả "Tôi đã nhìn thấy một con chó" bằng lời nói, mà còn đưa ra kết quả "Tôi đã nhìn thấy một con chó, nó ở đây: [[x1,y1,x2,y2]]".

DeepSeek gọi cơ chế này là "chỉ điểm trong khi suy luận".

Tìm kiếm sâu

Mọi bước trong quá trình tư duy của mô hình đều dựa trên các tọa độ cụ thể của hình ảnh.

Báo cáo kỹ thuật đã đưa ra một ví dụ như sau: mô hình bắt đầu từ điểm xuất phát, khám phá, quay lại và thử lại, cuối cùng xuất ra một đường dẫn tọa độ hoàn chỉnh, trong đó mỗi tọa độ tương ứng với một điểm đã đi qua trong mê cung.

Bằng cách này, mô hình sẽ không "bị lạc" trong quá trình suy luận. Nó sẽ không bị nhầm lẫn về những gì nó đang nói hoặc đang đề cập đến. Mỗi đối tượng trực quan đều có một điểm neo không gian rõ ràng, giúp quá trình suy luận có thể theo dõi và kiểm chứng được.

Cách tiếp cận công nghệ này tạo nên một sự tương phản thú vị với hướng đi của OpenAI.

OpenAI đã đề cập rõ ràng đến khái niệm "tư duy bằng hình ảnh" trong phần giới thiệu chính thức của o3 và o4-mini, có nghĩa là mô hình có thể tích hợp hình ảnh vào Chuỗi suy luận và xử lý chúng thông qua các phương pháp như cắt xén, thu phóng và xoay. Trọng tâm của phương pháp này là biến chính hình ảnh trở thành một phần của Chuỗi tư duy, cho phép mô hình tạo ra hình ảnh mới, sửa đổi hình ảnh hiện có và thao tác với hình ảnh hiện có trong quá trình suy luận.

Cách tiếp cận của OpenAI nhấn mạnh vào các khả năng đa năng, với sự phối hợp nhịp nhàng giữa thị giác máy tính, lập trình, tìm kiếm, tài liệu và sử dụng công cụ. Mô hình sở hữu một "bàn làm việc thị giác" mạnh mẽ có thể xử lý linh hoạt nhiều nhiệm vụ thị giác khác nhau.

Cách tiếp cận của DeepSeek mang tính "biểu tượng" hơn. Nó tích hợp tọa độ vào Chuỗi tư duy. Mô hình ghi rõ tọa độ của các hộp giới hạn và điểm trong văn bản suy luận, biến các đối tượng trực quan thành các điểm neo có thể tái sử dụng cho quá trình suy luận.

Điều này dẫn đến việc quá trình suy luận hình ảnh của OpenAI diễn ra nội bộ, người dùng chỉ thấy câu trả lời cuối cùng và các giải thích cần thiết, trong khi quá trình xử lý hình ảnh trung gian vẫn là một hộp đen. Mặt khác, DeepSeek cố tình làm cho các điểm neo hình ảnh trung gian trở nên rõ ràng, khiến quá trình suy luận hoàn toàn minh bạch.

Ưu điểm của phương pháp DeepSeek là quá trình suy luận dễ huấn luyện, kiểm tra và chấm điểm hơn. Điều này cũng giúp dễ dàng thiết kế định dạng, chất lượng và phần thưởng ở cấp độ nhiệm vụ. Đặc biệt trong nhiệm vụ như giải mê cung và tìm đường đi, nó có thể cung cấp phản hồi chi tiết hơn về tính hợp lệ của đường đi, độ phủ quỹ đạo và các khía cạnh khác.

Mô hình này không chỉ học cách đưa ra câu trả lời chính xác mà còn học phương pháp suy luận bằng cách sử dụng các yếu tố hình ảnh cơ bản.

02 Hiệu quả là chìa khóa

Có một chi tiết dễ bị bỏ qua nhưng cực kỳ quan trọng trong báo cáo của DeepSeek: mô hình của họ sử dụng ít token hơn nhiều so với các mô hình tiên tiến khác khi xử lý hình ảnh.

Báo cáo bao gồm một biểu đồ so sánh cho thấy số lượng token mà các mô hình khác nhau tiêu thụ khi xử lý hình ảnh có độ phân giải 800×800.

Gemini-3-Flash có khoảng 1100 mục, Claude-Sonnet-4.6 có khoảng 870 mục, GPT-5.4 có khoảng 740 mục, Qwen3-VL có khoảng 660 mục, DeepSeek có khoảng 361 mục, và chỉ khoảng 90 mục được lưu giữ trong bộ nhớ cache KV.

Sự khác biệt là đáng kể. DeepSeek chỉ sử dụng một phần ba số lượng token so với Gemini, và số lượng mục trong bộ nhớ cache cặp khóa-giá trị của nó chỉ bằng khoảng một phần mười.

Hiệu quả cực cao này đạt được như thế nào?

DeepSeek sử dụng một cơ chế gọi là "Compressed Sparse Attention" (CSA).

Bạn có thể hình dung thế này: nếu bạn cho một người bạn xem ảnh gia đình, bạn sẽ không nói, "Có một vùng màu đỏ bắt đầu từ pixel thứ 237 tính từ bên trái...", mà bạn sẽ nói thẳng, "Mẹ tôi ở bên trái, và bố tôi ở bên phải."

DeepSeek-ViT trước tiên nén hình ảnh thành ít token hình ảnh hơn, và sau đó CSA tiếp tục nén biểu diễn của các token hình ảnh này trong bộ nhớ cache KV.

Cơ chế này đã được sử dụng trong mô hình DeepSeek-V4-Flash và hiện đang được áp dụng cho các mô hình đa phương thức trực quan.

Quy trình nén cụ thể như sau: Một ảnh 756×756 chứa 571.536 pixel. Các pixel này được xử lý đầu tiên bằng ViT, chia chúng thành các ô có kích thước 14×14, tạo ra 2.916 token ô. Sau đó, thực hiện nén không gian 3×3, nén mỗi 9 token liền kề dọc theo chiều kênh thành 1, tạo ra 324 token hình ảnh.

324 token này được điền sẵn trong mô hình ngôn ngữ lớn. Cuối cùng, cơ chế CSA nén các token trực quan này trong bộ nhớ cache KV bằng hệ số 4, cuối cùng chỉ giữ lại 81 mục.

Từ 571.536 pixel xuống còn 81 mục bộ nhớ đệm KV, tỷ lệ nén tổng thể đạt được gấp 7.056 lần.

Hầu hết các công ty AI lớn sử dụng phương pháp"cưỡng chế" để tích lũy tài nguyên tính toán, trong khi DeepSeek thực hiện các sự đánh đổi ở cấp độ lý thuyết thông tin, chỉ giữ lại những thông tin trực quan và dễ hiểu nhất.

Kết quả trực tiếp nhất là tốc độ suy luận đã trở nên nhanh hơn rất nhiều.

Số lượng token hình ảnh ảnh hưởng trực tiếp đến độ trễ suy luận của mô hình. Trong quá trình tạo tự hồi quy, với mỗi token mới được tạo ra, mô hình cần thực hiện các phép tính chú ý trên bộ nhớ đệm cặp khóa-giá trị của tất cả các token trước đó. Nếu một hình ảnh sử dụng 1000 token, thì chú ý phải được áp dụng cho tất cả 1000 token lần hình ảnh được tạo ra. Nếu nó chỉ sử dụng 90 token, tải tính toán sẽ giảm đáng kể.

Đối với các ứng dụng yêu cầu phản hồi tức thời, chẳng hạn như thị giác robot, lái xe tự động và phân tích video thời gian thực, việc cải thiện tốc độ suy luận đóng vai trò quyết định.

Và nó cũng sử dụng ít bộ nhớ hơn.

Bộ nhớ đệm cặp khóa-giá trị (KV) là một nút thắt cổ chai về bộ nhớ đối với quá trình suy luận mô hình quy mô lớn. Đặc biệt khi xử lý các ngữ cảnh dài hoặc suy luận theo lô, bộ nhớ đệm KV tiêu tốn lượng lớn bộ nhớ GPU. DeepSeek nén bộ nhớ đệm KV mã thông báo hình ảnh của nó xuống còn 90 mục, có nghĩa là nó có thể xử lý nhiều hình ảnh hơn hoặc xử lý các đoạn hội thoại nhiều lượt dài hơn trên cùng một phần cứng.

Điều này rất quan trọng cho việc triển khai thực tế. Nhiều mô hình đa phương thức của các công ty hoạt động tốt trong phòng thí nghiệm, nhưng lại gặp vấn đề về chi phí khi triển khai trong các tình huống thực tế. Càng nhiều token được tiêu thụ cho mỗi hình ảnh, chi phí suy luận càng cao và số lượng người dùng đồng thời được hỗ trợ càng ít. Ưu điểm về hiệu quả của DeepSeek được khuếch đại trong các triển khai quy mô lớn.

Điều này cũng gián tiếp làm tăng khả năng xử lý ngữ cảnh của mô hình.

Nếu một hình ảnh yêu cầu 1000 token, thì chỉ khoảng 100 hình ảnh có thể được hiển thị trong cửa sổ ngữ cảnh 128k. Nếu nó chỉ yêu cầu 300 token, thì hơn 400 hình ảnh có thể được hiển thị. Điều này rất quan trọng đối với các trường hợp yêu cầu hội thoại đa hình ảnh, phân tích video dài và hiểu tài liệu lượng lớn.

Các mô hình của DeepSeek có thể xử lý nhiều hình ảnh hơn trong một cuộc hội thoại duy nhất, so sánh và phân tích hàng chục hoặc thậm chí hàng trăm hình ảnh, và theo dõi những thay đổi dài hạn trong video.

Yếu tố quan trọng nhất là chi phí đào tạo.

Mặc dù báo cáo chủ yếu tập trung vào hiệu quả suy luận, cơ chế nén này cũng hiệu quả không kém trong giai đoạn huấn luyện. Ít token hình ảnh hơn đồng nghĩa với đồ thị tính toán nhỏ hơn, tốc độ huấn luyện nhanh hơn và yêu cầu phần cứng thấp hơn.

DeepSeek luôn nổi tiếng với phương châm "đạt được kết quả tốt hơn với ít tài nguyên hơn". Từ huấn luyện học tăng cường trong R1 đến kiến ​​trúc MoE trong V4, và giờ là học đa phương thức trực quan, triết lý ưu tiên hiệu quả này luôn được áp dụng nhất quán.

Nhưng đây là một câu hỏi quan trọng: Liệu việc nén dữ liệu có dẫn đến mất mát thông tin hay không?

DeepSeek không phủ nhận rằng việc nén dẫn đến mất mát thông tin. Lập luận của họ là, đối với tập hợp nhiệm vụ suy luận không gian và đếm này, các biểu diễn được nén vẫn đủ hiệu quả.

Mỗi bước nén đều giữ lại thông tin quan trọng nhất cho quá trình suy luận, đồng thời loại bỏ thông tin dư thừa và nhiễu.

Trên thực tế, cơ chế nhận diện hình ảnh cơ bản của DeepSeek được đề cập trước đó bản thân nó là một dạng nén thông tin. Một khung bao có thể xác định chính xác vị trí của một đối tượng chỉ với bốn con số, và một điểm có thể đánh dấu chỉ với hai con số. Mật độ thông tin được mang bởi các ký hiệu rời rạc này cao hơn nhiều so với mật độ thông tin của các pixel ban đầu.

Kết quả thực nghiệm cho thấy rằng việc nén này không làm giảm hiệu năng; ngược lại, nó còn cải thiện hiệu năng trong một số nhiệm vụ nhất định.

Điều này cho thấy rằng đối với nhiều nhiệm vụ suy luận trực quan, điểm nghẽn không phải là hình ảnh không đủ rõ nét, mà là phương pháp biểu diễn phù hợp vẫn chưa được tìm ra.

Ưu điểm về hiệu quả này cũng chứng minh rằng trí tuệ đa phương thức không nhất thiết phải đòi hỏi các mô hình lớn hơn, nhiều tỷ lệ băm hơn hoặc chi phí cao hơn.

Từ khi thành lập, DeepSeek luôn tuân theo một nguyên tắc cốt lõi: "Trí tuệ thực sự không nằm ở tỷ lệ băm, mà ở việc hiểu được bản chất của vấn đề."

Khi bạn thực sự hiểu được khả năng suy luận trực quan đòi hỏi điều gì, bạn sẽ không cần nhiều token đến vậy. Khi bạn tìm ra phương pháp biểu diễn phù hợp, bạn sẽ không cần một mô hình lớn đến thế.

Từ góc nhìn này, hiệu quả cực cao của DeepSeek không phải là mục tiêu, mà chỉ là sản phẩm phụ. Mục tiêu thực sự là tìm ra mô hình đúng đắn cho suy luận thị giác. Hiệu quả chỉ đơn thuần chứng minh rằng mô hình này là đúng.

03 Việc chưa hoàn thành

Trong phần nêu hạn chế của báo cáo, DeepSeek đã thẳng thắn liệt kê một số vấn đề với phương pháp hiện tại của họ. Đây không phải là những lỗi kỹ thuật nhỏ, mà là những chỉ dẫn cho giai đoạn tiếp theo của suy luận hình ảnh.

Vấn đề đầu tiên là sự phụ thuộc vào từ khóa kích hoạt.

Báo cáo nêu rõ rằng khả năng hiện tại để "suy nghĩ bằng các yếu tố hình ảnh cơ bản" đòi hỏi phải có từ khóa kích hoạt cụ thể. Nói cách khác, mô hình hiện chưa thể tự nhiên và độc lập quyết định "khi nào cần vẽ khung hoặc thêm chấm".

Điều này có nghĩa là mô hình vẫn chưa thực sự học được cách xác định khi nào nên sử dụng các yếu tố hình ảnh cơ bản và khi nào ngôn ngữ là đủ.

Lý tưởng nhất, mô hình nên có khả năng đưa ra quyết định tự chủ dựa trên bản chất của nhiệm vụ. Tuy nhiên, khi người dùng hỏi, "Đếm xem có bao nhiêu con chó trong hình", mô hình nên tự động chuyển sang chế độ xử lý hình ảnh cơ bản và sử dụng các khung giới hạn để hỗ trợ việc đếm.

Về mặt kỹ thuật, điều này đòi hỏi phải xây dựng một lớp siêu nhận thức trong mô hình. Lớp siêu nhận thức này có thể đánh giá độ phức tạp của nhiệm vụ hiện tại, xác định xem lập luận bằng ngôn ngữ thuần túy có đủ hay không, và quyết định có nên sử dụng các yếu tố hình ảnh cơ bản hay không.

DeepSeek vẫn chưa triển khai lớp siêu nhận thức này, nhưng họ đã xác định được hướng đi. Các phiên bản tương lai có thể cho phép mô hình học cách tự động xác định chiến lược suy luận của mình, thay vì dựa vào các tác nhân kích hoạt bên ngoài.

Vấn đề thứ hai là những hạn chế về độ phân giải.

Báo cáo đề cập rằng, do những hạn chế về độ phân giải đầu vào, mô hình hoạt động không đủ tốt trong các tình huống có độ chi tiết cao, và các hình ảnh cơ bản đầu ra đôi khi không đủ chính xác.

Vấn đề này liên quan đến chiến lược ưu tiên hiệu quả của DeepSeek. Để kiểm soát số lượng token, họ giới hạn phạm vi token hình ảnh trong khoảng từ 81 đến 384. Hình ảnh nằm ngoài phạm vi này sẽ được thu nhỏ.

Thiết kế này hợp lý trong hầu hết các trường hợp, nhưng nó gặp phải những trở ngại trong một số nhiệm vụ đòi hỏi độ chính xác cực cao. Ví dụ, phân tích hình ảnh y tế cần xác định các tổn thương nhỏ, và kiểm tra chất lượng công nghiệp cần phát hiện các khuyết tật nhỏ; những trường hợp này có yêu cầu độ phân giải rất cao.

DeepSeek đề cập trong báo cáo rằng vấn đề này có thể được giải quyết bằng cách tích hợp phương pháp độ phân giải cao hiện có. Nói cách khác, khung hình học trực quan của họ và phương pháp cắt xén độ phân giải cao truyền thống không mâu thuẫn mà bổ sung cho nhau.

Tôi nghĩ DeepSeek có thể đưa ra một giải pháp kết hợp.

Cụ thể, đối với hầu hết nhiệm vụ thông thường, các biểu diễn hình ảnh được nén và suy luận các yếu tố hình ảnh cơ bản được sử dụng để duy trì hiệu quả cao. Đối với các vùng cục bộ yêu cầu phân tích chi tiết hơn, việc cắt xén độ phân giải cao được kích hoạt động rút thông tin hình ảnh chi tiết hơn. Điều này duy trì hiệu quả tổng thể trong khi đáp ứng các yêu cầu về độ chính xác cục bộ.

Điểm mấu chốt của phương pháp kết hợp này là dạy mô hình xác định những vùng nào cần xử lý độ phân giải cao. Điều này đưa chúng ta trở lại câu hỏi về siêu nhận thức đã nêu trước đó.

Vấn đề thứ ba là khả năng khái quát hóa giữa các tình huống khác nhau.

Báo cáo đề cập rằng việc sử dụng các điểm làm các yếu tố hình học cơ bản để giải quyết các bài toán suy luận tôpô phức tạp vẫn còn khó khăn, và khả năng khái quát hóa xuyên cảnh của mô hình còn hạn chế.

Vấn đề này đặc biệt rõ rệt trong nhiệm vụ điều hướng mê cung và dò đường. Mặc dù DeepSeek đạt được độ chính xác 66,9% và 56,7% trên tập dữ liệu thử nghiệm do chính nó xây dựng, vượt trội so với các mô hình khác, nhưng những con số này vẫn chưa đủ.

Quan trọng hơn, tất cả nhiệm vụ này đều được huấn luyện và kiểm tra trên dữ liệu tổng hợp. Các mê cung được tạo ra bằng thuật toán, và các đường cong theo dõi đường đi cũng được vẽ theo quy trình. Khi mô hình gặp phải các vấn đề suy luận tôpô trong thế giới thực, chẳng hạn như lập kế hoạch đường đi trên bản đồ thực hoặc theo dõi các kết nối trong đồ thị đường ống phức tạp, hiệu suất của nó có thể giảm.

Phương pháp của DeepSeek tận dụng dữ liệu quy mô lớn, đa dạng cao để nâng cao khả năng khái quát hóa. Họ đã thu thập dữ liệu từ 97.984 nguồn, lọc kỹ lưỡng để giữ lại 31.701 nguồn, cuối cùng thu được hơn 40 triệu mẫu. Đối với nhiệm vụ giải mê cung và tìm đường đi, họ cũng thiết kế nhiều cấu trúc, kiểu hình ảnh và mức độ khó khác nhau để bao phủ càng nhiều biến thể càng tốt.

Tuy nhiên, sự đa dạng dữ liệu chỉ là một khía cạnh của khả năng khái quát hóa. Liệu mô hình có thực sự hiểu được bản chất của suy luận tôpô học, hay chỉ đơn thuần ghi nhớ các mẫu từ dữ liệu huấn luyện?

Hơn nữa, các thành phần hình ảnh cơ bản của DeepSeek là một hệ thống biểu diễn mới, đòi hỏi các định dạng dữ liệu , quy trình huấn luyện và phương pháp đánh giá chuyên biệt. Điều này không hoàn toàn tương thích với hệ sinh thái đa phương thức hiện có.

Hầu hết dữ liệu và tiêu chuẩn đánh giá đa phương thức được thiết kế dựa trên mô hình "hình ảnh + văn bản" truyền thống, mà không xem xét các yếu tố hình ảnh cơ bản. Để đánh giá các mô hình DeepSeek trên các tiêu chuẩn này, cần phải vô hiệu hóa tính năng hình ảnh cơ bản hoặc thiết kế lại phương pháp đánh giá.

Nếu các nhà nghiên cứu khác muốn tái tạo hoặc cải tiến công trình này, họ cần phải xây dựng lại toàn bộ quy trình dữ liệu và huấn luyện, điều này khá khó khăn.

Việc DeepSeek có thể thảo luận những vấn đề này trong báo cáo chứng tỏ họ hiểu rõ công việc của mình.

Điều này có thể có giá trị hơn việc đưa ra một câu trả lời hoàn hảo. Bởi vì điều thực sự thúc đẩy sự tiến bộ xã hội thường không phải là câu trả lời, mà là câu hỏi.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận