AI hiện có thể làm nổi bật những điểm chính trong video!
Nó không chỉ có thể trả lời "cái gì" và "chuyện gì đã xảy ra" mà còn chỉ ra " khi nào và ở đâu" sự việc đó xảy ra.
Một đội ngũ hợp tác từ Đại học Bắc Kinh và ByteDance đã ra mắt mô hình mã nguồn mở mở đầu tiên tích hợp bằng chứng không gian-thời gian rõ ràng vào toàn bộ quá trình suy luận video —Open-o3 Video . Điều này cho phép AI không chỉ trả lời chính xác các câu hỏi mà còn đồng thời đánh dấu trực quan các vị trí cụ thể trong quá trình suy nghĩ, thực sự đạt được khả năng suy luận video có thể truy xuất nguồn gốc.
△
Trong khi đó, mô hình áp dụng kiến trúc phi tác nhân , tránh các lệnh gọi công cụ phức tạp và suy luận nhiều vòng, đồng thời hoàn thành trực tiếp vòng lặp khép kín "xem-suy nghĩ-chứng minh-trả lời" trong một phản hồi duy nhất.
Trong nhiều thử nghiệm suy luận video, chỉ báo quan trọng có thể được cải thiện lên 24,2%, vượt qua các mô hình nguồn đóng như GPT-4o và Gemini-2-Flash .
Thông tin chi tiết hơn có ở bên dưới.
Bối cảnh nghiên cứu
Hiểu video là một trong nhiệm vụ phức tạp nhất trong mô hình lớn đa phương thức (MLLM).
Không giống như hình ảnh tĩnh, video truyền tải đồng thời những thay đổi động trong chiều thời gian và tương tác giữa các cảnh trong chiều không gian.
Điều này có nghĩa là mô hình không chỉ phải xác định các đối tượng và hành động trong hình ảnh (Cái gì) mà còn phải xác định thời điểm chúng xuất hiện (Khi nào) và chúng xảy ra ở đâu (Ở đâu).
Gần đây, các mô hình như Video-R1 và VideoRFT đã cải thiện đáng kể tính nhất quán logic của việc hiểu video thông qua học tăng cường. Tuy nhiên, Chuỗi tư duy của chúng vẫn hoàn toàn dựa trên văn bản. Mô hình có thể trả lời đúng các câu hỏi, nhưng không thể chỉ ra hình ảnh cụ thể hỗ trợ câu trả lời.
"Lý luận hộp đen" này khiến cho các phán đoán của mô hình vừa khó giải thích vừa khó xác minh.
Ngoài ra, mô hình o3 của OpenAI lần đầu tiên đề xuất khái niệm "Suy nghĩ bằng hình ảnh", cho phép mô hình tham chiếu tự nhiên các tín hiệu trực quan trong Chuỗi suy luận bằng cách nhúng hình ảnh vào suy luận (chẳng hạn như chọn khu vực, phóng to các khu vực cục bộ và phóng to để xem), do đó đạt được "suy luận dựa trên bằng chứng".
Tuy nhiên, mở rộng khái niệm này sang lĩnh vực video, cụ thể là cho phép các mô hình cung cấp bằng chứng theo cả thời gian và không gian trong quá trình suy luận, thậm chí còn khó khăn hơn:
1. Trong suy luận, rất khó để duy trì tính nhất quán giữa văn bản, dấu thời gian và hộp giới hạn đối tượng.
Mô hình cần được căn chỉnh chính xác với các điểm thời gian của sự kiện trên hàng chục hoặc hàng trăm khung hình. Bất kỳ sự sai lệch nào cũng sẽ dẫn đến lỗi trong logic suy luận, gây khó khăn cho việc đào tạo.
Hơn nữa, vị trí của cùng một vật thể thay đổi đáng kể trong các khung hình khác nhau, đòi hỏi phải theo dõi liên tục vị trí không gian của nó trong động lực thời gian.
2. Việc giám sát liên kết không gian và thời gian đang rất thiếu.
Dữ liệu hiện tại chỉ cung cấp cơ sở thời gian hoặc chỉ các hộp không gian khung đơn, thiếu chú thích không gian thời gian thống nhất và Chuỗi suy nghĩ tương ứng.
Quy trình đào tạo mô hình
Bù đắp cho khoảng cách dữ liệu
Do đó, nút thắt cơ bản nhất trong việc sử dụng lý luận video dựa trên manh mối định vị không gian thời gian nằm ở dữ liệu.
Dữ liệu hiểu biết về video hiện tại thường chỉ có chú thích theo chiều thời gian hoặc không gian, thiếu dữ liệu Chuỗi suy nghĩ được kết hợp theo không gian và thời gian, dẫn đến sự ngắt kết nối giữa các phương thức.
Do đó, đội ngũ đã xây dựng hệ thống ngữ liệu thống nhất đầu tiên cho lý luận có cơ sở về không gian-thời gian rõ ràng— STGR (Lý luận có cơ sở về không gian-thời gian), bao gồm hai phần: STGR-CoT-30k và STGR-RL-36k .
Phương pháp trước được sử dụng để điều chỉnh có giám sát (SFT) nhằm giúp mô hình học các định dạng suy luận và cấu trúc đầu ra với chú thích không gian-thời gian; phương pháp sau được sử dụng trong giai đoạn học tăng cường (RL) để cung cấp các tín hiệu phần thưởng chất lượng cao nhằm liên tục tối ưu hóa khả năng liên kết không gian-thời gian và tạo bằng chứng của mô hình.
△
Cả hai dữ liệu đều chứa bốn loại nhiệm vụ: định vị thời gian; định vị không gian; dữ liệu định vị không gian-thời gian; và dữ liệu trả lời câu hỏi video, với phân phối dữ liệu như được hiển thị.
Trong đó, 5,9 nghìn dữ liệu không gian-thời gian chất lượng cao đã được đội ngũ nghiên cứu dán nhãn theo quy trình xử lý dữ liệu được thể hiện trong hình. Quy trình cụ thể như sau:
1. Chú thích ban đầu được thực hiện bằng Gemini 2.5 Pro cho hai nguồn dữ liệu (nối đất thời gian và plm-rdcap), tạo ra các cặp câu hỏi-trả lời, khung hình chính ban đầu, hộp phát hiện đối tượng và quy trình suy luận; định dạng định vị không gian-thời gian được hiển thị như sau:
"<obj>tên_đối_tượng</obj><box>[x phút, y phút, x tối đa, y tối đa]</box>tại<t>dấu thời gian</t>s"
2. Do chất lượng hạn chế của các hộp giới hạn được dán nhãn trên mô hình lớn, đội ngũ đã sử dụng hai phương pháp để lọc:
Xóa các khung không hợp lệ bao phủ diện tích quá lớn (hơn 80% màn hình);
Xác minh xem danh mục mục tiêu có khớp hay không bằng cách sử dụng Qwen2.5-VL-7B , ví dụ, bằng cách sử dụng truy vấn "Đây có phải là chó không?" để xác nhận nội dung của hộp phát hiện.
3. Kiểm tra tính nhất quán: Viết lại Chuỗi suy luận để đảm bảo rằng câu hỏi-câu trả lời, dấu thời gian, tên đối tượng, đường viền và Chuỗi suy luận tương ứng một-một và xóa các mẫu trùng lặp hoặc không nhất quán.
Phương pháp đào tạo hai giai đoạn
△
Sau khi đặt nền móng với các tập hợp dữ liệu không gian thời gian chất lượng cao, câu hỏi quan trọng đặt ra là làm thế nào để mô hình thực sự có thể học cách "suy nghĩ trong video".
Đội ngũ nhận thấy rằng chỉ riêng việc tinh chỉnh có giám sát là không đủ để đạt được kết quả khả quan. Nguyên nhân là, trong giai đoạn có giám sát, mô hình chủ yếu mô phỏng các mẫu ngôn ngữ của người chú thích thay vì thực sự hiểu được mối quan hệ logic giữa các tín hiệu thị giác và cấu trúc lý luận.
Do đó, để mô hình chủ động khám phá và trích dẫn bằng chứng quan trọng, cần phải sử dụng cơ chế học tăng cường tự điều chỉnh, để tín hiệu phần thưởng trực tiếp hạn chế "khung hình nào cần nhìn, khu vực nào cần chú ý và suy nghĩ gì".
Khái niệm này hình thành nên cốt lõi của đào tạo Video Open-o3: cơ chế học tập hai giai đoạn —đào tạo trước khi khởi động lạnh và học tăng cường dựa trên GSPO .
Trong giai đoạn khởi động lạnh, mô hình đầu tiên được tinh chỉnh dưới sự giám sát bằng cách sử dụng dữ liệu STGR-CoT-30k.
Mục tiêu của giai đoạn này là giúp mô hình nắm vững định dạng lý luận và thông số kỹ thuật đầu ra, tức là cách tạo đánh dấu có cấu trúc như <input type="keywords">, <output ... và <output type="keywords"> trong câu trả lời, đồng thời học cách khớp Chuỗi lý luận với nội dung video.
Giai đoạn này tương đương với "dạy mô hình nói" : nó học cách mô tả bằng chứng trực quan bằng ngôn ngữ, nhưng vẫn chưa hình thành được chiến lược lựa chọn bằng chứng một cách tự phát.
Nói cách khác, giai đoạn khởi động lạnh cung cấp cho mô hình khả năng tạo ra các câu trả lời có thể theo dõi được và giai đoạn tiếp theo là làm cho khả năng này trở nên chính xác, ổn định và có thể khái quát hóa.
Ở giai đoạn thứ hai, đội ngũ đã giới thiệu khuôn khổ học tăng cường GSPO .
So với GRPO được sử dụng rộng rãi, GSPO được tối ưu hóa dựa trên trình tự, có lợi hơn cho sự ổn định của quá trình đào tạo dài hạn và tránh sự sụp đổ của Chuỗi suy nghĩ.
Ở giai đoạn này, mô hình được yêu cầu tạo ra các chuỗi suy luận không gian-thời gian hoàn chỉnh trong các cảnh video mở, sau đó tự hiệu chỉnh bằng hàm thưởng. Hàm thưởng bao gồm ba phần:
r_acc đo lường tính chính xác của câu trả lời; r_thk phản ánh tính hợp lý và tính hoàn chỉnh của Chuỗi lý luận, khuyến khích mô hình tận dụng tối đa bằng chứng trực quan khi tạo văn bản suy nghĩ, chẳng hạn chỉ báo tính toán IoU theo thời gian và IoU không gian; r_fmt đánh giá định dạng lý luận có tuân thủ theo thông số kỹ thuật hay không.
Đội ngũ cứu nhấn mạnh rằng một phần thưởng độ chính xác duy nhất không thể hỗ trợ lý luận có thể diễn giải đa phương thức, vì mô hình có thể "đoán" được câu trả lời nhưng bỏ qua các chi tiết quan trọng; chỉ khi quá trình lý luận được kết hợp vào mục tiêu tối ưu hóa thì mô hình mới thực sự học được cách suy nghĩ trong thế giới trực quan.
Tuy nhiên, việc tối ưu hóa khả năng định vị theo cả chiều thời gian và không gian bằng cách sử dụng học tăng cường là rất khó khăn, đặc biệt là vì phần thưởng không gian (IoU) phụ thuộc vào độ chính xác của dự đoán thời gian.
Cụ thể, nếu dự đoán thời gian không chính xác, thì ngay cả khi vị trí hộp không gian chính xác, nó cũng không thể tương ứng với thực tế. Nói cách khác, dự đoán thời gian là điều kiện tiên quyết để huấn luyện tính ổn định.
Tuy nhiên, nếu sử dụng trực tiếp các ràng buộc thời gian nghiêm ngặt trong dự đoán phần thưởng tạm thời, mô hình thường không nhận được phần thưởng trong giai đoạn đầu của quá trình huấn luyện, dẫn đến tình trạng trì trệ trong học tập. Nếu luôn sử dụng các ràng buộc lỏng lẻo, mô hình có thể nhận được phần thưởng, nhưng phần thưởng tạm thời dễ bị bão hòa, và dự đoán không thể dần dần hội tụ đến vị trí chính xác, do đó việc tính toán phần thưởng không gian vẫn không chính xác.
Do đó, đội ngũ cứu đã đề xuất một cơ chế tiệm cận thời gian thích ứng , giúp điều chỉnh dần phạm vi dung sai của phần thưởng thời gian trong quá trình huấn luyện. Công thức cụ thể như sau:
Khi quá trình đào tạo tiến triển, độ lệch chuẩn sẽ giảm dần từ một giá trị lớn để đạt được sự hội tụ từ "định vị thô" đến "định vị chi tiết".
Trong khi đó, đội ngũ chúng tôi đã đề xuất một cơ chế kiểm soát thời gian , kiểm tra xem dấu thời gian dự đoán có gần với dấu thời gian thực hay không trước khi tính toán phần thưởng không gian. Chỉ khi giá trị dự đoán thời gian gần với giá trị thực (nhỏ hơn ngưỡng đã đặt) thì IoU giữa hộp dự đoán và hộp thực trên khung tương ứng mới được tính toán; nếu không, phần thưởng không gian sẽ bằng 0.
Thông qua phương pháp đào tạo và thiết kế phần thưởng này, mô hình có thể được đào tạo theo cách ổn định và hiệu quả hơn.
Nâng cao khả năng suy luận
△
Bằng chứng không gian thời gian do đội ngũ đề xuất có thể đóng vai trò là tín hiệu có thể xác minh và được áp dụng để mở rộng thời gian thử nghiệm.
Cụ thể, trong giai đoạn suy luận, mô hình tạo ra nhiều Chuỗi suy luận độc lập, Chuỗi chứa bằng chứng không gian và thời gian.
Trích xuất vùng khung hình chính tương ứng từ Chuỗi suy luận và nhập lại vào mô hình để đánh giá mức độ liên quan của vùng đó với câu hỏi (lần lượt là 0, 1 và 2 điểm, cho biết vùng này không liên quan đến câu hỏi, có thể hữu ích trong việc trả lời câu hỏi và rất hữu ích trong việc trả lời câu hỏi).
Mỗi câu trả lời được đánh giá theo điểm số và câu trả lời có độ tin cậy cao nhất sẽ được đưa ra.
Cơ chế này ngăn chặn hiệu quả việc bỏ phiếu bị đánh lừa bởi Chuỗi suy nghĩ chất lượng thấp, cải thiện độ chính xác và tính vững chắc của lập luận.
Kết quả thực nghiệm
△
Open-o3 Video đạt hiệu suất đáng kể trên nhiều tiêu chuẩn suy luận và hiểu video.
Đầu tiên, đội ngũ đã thử nghiệm mô hình trên V-STAR, một chuẩn mực cho suy luận không gian - thời gian, kiểm tra toàn diện hiệu suất của mô hình trên ba chiều: "cái gì", "khi nào" và "ở đâu".
Như có thể thấy, Open-o3 Video đã đạt được những cải tiến đáng kể về cả Temporal IoU (căn chỉnh thời gian) và Visual IoU (căn chỉnh không gian), với mức cải thiện tổng thể là +14,4% ở mAM và +24,2% ở mLGM, vượt qua các mô hình nguồn đóng lớn như GPT-4o và Gemini-2-Flash , thể hiện đầy đủ những lợi thế đáng kể của nó về khả năng định vị khớp nối không gian-thời gian và tính nhất quán trong suy luận!
△
Hơn nữa, trong bốn bài kiểm tra chuẩn—VideoMME, WorldSense, VideoMMMU và TVGBench—Open-o3 Video luôn vượt qua các mô hình cơ sở và nhiều mô hình suy luận video.
Nó đạt được sự cải thiện đáng kể 4,1% trong nhiệm vụ VideoMME-Long, đạt 54,9%. Trong nhiệm vụ, nó cho thấy sự cải thiện vượt qua 3% so với mô hình cơ sở. Trong TVGBench, nó đạt được mIoU là 20,8, cũng cải thiện 4,5%.
Những kết quả này chứng minh rằng Open-o3 Video không chỉ vượt trội trong nhiệm vụ không gian-thời gian đòi hỏi lý luận phức tạp mà còn thể hiện khả năng khái quát hóa mạnh mẽ trong nhiệm vụ nhận dạng video truyền thống và định vị thời gian.
Quan trọng hơn, nhờ thiết kế Chuỗi bằng chứng rõ ràng, các câu trả lời do mô hình tạo ra có thể xác minh được, mang lại khả năng diễn giải và độ tin cậy cao hơn với cùng độ chính xác.
△
Để xác minh thêm tác động của các giai đoạn đào tạo, thành phần dữ liệu và cơ chế khen thưởng khác nhau đối với hiệu suất của mô hình, đội ngũ đã tiến hành một nghiên cứu cắt bỏ có hệ thống.
Kết quả thử nghiệm được thể hiện trong bảng, đánh giá toàn diện sự đóng góp của các yếu tố như chiến lược đào tạo, thiết kế phần thưởng, loại dữ liệu và thang dữ liệu vào hiệu suất suy luận không gian-thời gian.
Như có thể thấy từ Bảng 3, cơ chế đào tạo hai giai đoạn (SFT + RL) đóng vai trò quan trọng trong việc cải thiện hiệu suất của mô hình.
Chỉ với học có giám sát (Pure SFT), mô hình có thể học được các định dạng suy luận với nhãn không gian thời gian, nhưng hiệu suất tổng thể của nó vẫn bị hạn chế bởi việc mô phỏng các nhãn cố định.
Trong khi học tăng cường thuần túy (GSPO) có thể cải thiện tính nhất quán về mặt thời gian và không gian, thì việc cải thiện hiệu suất của nó bị hạn chế nếu không được đào tạo trên dữ liệu CoT.
Khi kết hợp cả hai, mô hình cải thiện lên 33,7% và 46,6% trên mAM và mLGM.
Điều này cho thấy rằng sự giám sát có cấu trúc trong giai đoạn khởi động lạnh cung cấp khuôn mẫu suy luận cần thiết, trong khi giai đoạn củng cố dựa trên GSPO tối ưu hóa hơn nữa sự liên kết không gian-thời gian của mô hình và định hướng bằng chứng, do đó đạt được khả năng suy luận ổn định và có thể diễn giải được.
Bảng 4 minh họa vai trò của hai cơ chế khen thưởng chính: Khoảng cách thời gian thích ứng và Cổng thời gian.
Nếu cơ chế láng giềng gần thích ứng (không có Ada.) bị loại bỏ, mLGM của mô hình giảm 1,4%; nếu không sử dụng gating (không có Gat.), hiệu suất giảm 1,7%.
Điều này xác nhận ý định thiết kế ban đầu của đội ngũ: cơ chế lân cận có thể giảm bớt vấn đề về phần thưởng thưa thớt trong giai đoạn đầu của quá trình đào tạo, trong khi chiến lược gating có thể ngăn mô hình đánh giá sai các đối tượng không liên quan trong khung thời gian không phù hợp .
Sự kết hợp của cả hai đảm bảo hiệu quả mật độ và độ chính xác của tín hiệu phần thưởng, cho phép mô hình dần hội tụ đến chế độ lý luận thực sự nhất quán về mặt không gian và thời gian.
Bảng 5 xác nhận thêm tầm quan trọng của dữ liệu chú thích không gian và thời gian.
Với việc loại bỏ các mẫu được gắn nhãn không gian-thời gian (không có dữ liệu không gian-thời gian), hiệu suất mô hình giảm đáng kể xuống còn mAM 28,3/mLGM 36,2; mặc dù có một chút cải thiện sau khi đưa vào dữ liệu VideoEspresso hiện có, nhưng vẫn không tốt bằng ngữ liệu có độ nhất quán cao do đội ngũ xây dựng.
Khi sử dụng dữ liệu chú thích STGR đầy đủ, mLGM đạt 46,6, cho thấy mô hình thực sự đã học được khả năng định vị và suy luận mạnh mẽ từ sự giám sát không gian-thời gian thống nhất. Điều này cũng gián tiếp xác minh giá trị của dữ liệu STGR về tính nhất quán giữa ngôn ngữ, không gian và thời gian.
Bảng 6 khám phá tác động của khối lượng dữ liệu trả lời câu hỏi video chung đối với hiệu suất tổng thể của mô hình.
Các thí nghiệm cho thấy một lượng vừa phải các mẫu QA chung có thể cân bằng hiệu quả khả năng tạo ngôn ngữ và bản địa hóa bằng chứng của mô hình. Khi thêm 15.000 mẫu VideoQA chung, mô hình sẽ đạt được sự cân bằng tối ưu.
Nếu mở rộng quy mô dữ liệu hơn nữa, hiệu suất thực tế giảm nhẹ, cho thấy quá nhiều mẫu chung sẽ làm loãng tín hiệu giám sát của chú thích không gian thời gian.
Do đó, cuối cùng đội ngũ đã áp dụng cấu hình dữ liệu hỗn hợp gồm 15 nghìn điểm dữ liệu để đạt được sự cân bằng tối ưu giữa lý luận có thể diễn giải và trả lời câu hỏi chung.
Tóm lại, các thí nghiệm cắt bỏ đã xác nhận đầy đủ ba nguyên tắc thiết kế cốt lõi của Open-o3 Video: dữ liệu không gian thời gian thống nhất, cơ chế đào tạo hai giai đoạn và chiến lược khen thưởng thích ứng, chứng minh những đóng góp quan trọng của chúng trong việc cải thiện khả năng diễn giải và độ tin cậy của mô hình.
Những thiết kế này cho phép mô hình tạo ra Chuỗi suy luận có thể theo dõi một cách ổn định trong các tình huống video phức tạp, đạt được khả năng suy luận đa phương thức thực sự dựa trên bằng chứng .
△
Như thể hiện trong Bảng 7, trên cả chuẩn mực WorldSense và VideoMMMU, chiến lược mở rộng thời gian thử nghiệm dựa trên độ tin cậy mang lại sự cải thiện ổn định, vượt trội hơn cả phương án bỏ phiếu đa số đơn giản và phương án lý luận đơn lẻ (Cơ sở).
Điều này chỉ ra rằng bằng chứng không gian thời gian rõ ràng không chỉ có thể cung cấp tín hiệu giám sát trong giai đoạn đào tạo mà còn đóng vai trò là chỉ báo độ tin cậy đáng tin cậy trong giai đoạn suy luận, giúp mô hình đưa ra những phán đoán mạnh mẽ hơn giữa các quá trình suy nghĩ đa dạng.
Tuy nhiên, bằng cách tạo ra nhiều phản hồi song song, đội ngũ cũng nhận thấy rằng mô hình hiện tại tạo ra tương đối ít quỹ đạo suy luận chất lượng cao trong hoạt động thực tế đối diện các vấn đề tương đối khó.
Điều này có nghĩa là rút bằng chứng không gian-thời gian của mô hình vẫn cần được cải thiện hơn nữa, đặc biệt là trong các video dài hơn và các tình huống phức tạp và đa dạng hơn. Đây cũng là một hướng quan trọng mà cộng đồng mã nguồn mở nên khám phá sâu hơn trong tương lai.
Kết quả trực quan hóa
Open-o3 Video có thể cung cấp bằng chứng về mặt thời gian và không gian (dấu thời gian và hộp giới hạn) trong quá trình suy luận để hỗ trợ quá trình lập luận và câu trả lời cuối cùng, như minh họa trong các ví dụ trực quan sau:
Những ví dụ này chứng minh hiệu suất vượt trội của Open-o3 Video trong việc xử lý nhận dạng hình dạng đối tượng, phân tích ý định hành động và suy luận thời tiết.
Mô hình này hoạt động tốt như các mô hình lý luận khác và có thể cung cấp một số bằng chứng để hỗ trợ các tuyên bố, giúp phản hồi trở nên trực quan hơn, đáng tin cậy hơn và dễ xác minh hơn.
Chúng ta hãy cùng xem bản demo.
Đội ngũ cứu tin rằng Open-o3 Video sẽ thúc đẩy các mô hình video đa phương thức từ "có khả năng trả lời chính xác" thành "có khả năng định vị và giải thích", cho phép máy móc thực sự có khả năng thực hiện suy luận có thể truy nguyên trong chiều không gian thời gian.
Trong tương lai, đội ngũ sẽ tiếp tục hoàn thiện dữ liệu lý luận không gian-thời gian và cơ chế đào tạo sau để cung cấp bằng chứng không gian-thời gian hỗ trợ mạnh mẽ cho việc trả lời câu hỏi trong các video dài hơn và các tình huống phức tạp hơn.
Ngoài ra, tất cả các bài viết, mã và mô hình đội ngũ mã nguồn mở và mọi người đều được chào đón trao đổi ý tưởng và thảo luận về chúng!
Liên kết bài báo: https://huggingface.co/papers/2510.20579
Liên kết mã: https://github.com/marinero4972/Open-o3-Video
Liên kết người mẫu: https://huggingface.co/marinero4972/Open-o3-Video
Bài viết này được trích từ tài khoản công khai WeChat "Quantum Bit" , do đội ngũ Open-o3 Video biên soạn và được xuất bản với sự cho phép của 36Kr.




