Cách sử dụng Gemini AI để tóm tắt video YouTube

avatar
WIRED
04-27
Bài viết này được dịch máy
Xem bản gốc

Các công ty AI lớn liên tục hứa hẹn rằng công nghệ của họ sẽ giúp chúng ta tiết kiệm thời gian và tăng năng suất—mặc dù có những câu hỏi lớn về lạm dụng bản quyền , nội dung bất hợp phápmức sử dụng năng lượng tăng vọt đang treo lơ lửng khá bất tiện ở phía sau. Nhưng nếu bạn muốn dành nhiều thời gian hơn cho lịch trình bận rộn của mình, AI có thể là một công cụ hữu ích và có thể theo một số cách mà bạn thậm chí chưa từng nghĩ đến.

Một trong số đó có thể là tóm tắt video trên YouTube. AI đã chứng minh rằng nó có thể là một công cụ tóm tắt khá đáng tin cậy (mặc dù không phải lúc nào cũng vậy ) và nếu bạn chỉ cần trích xuất một vài điểm nổi bật từ một loạt video dài 15 hoặc 30 phút, thời gian tiết kiệm được có thể nhanh chóng tăng lên.

Google Gemini có một mô hình AI mới, Gemini 2.0 Flash Thinking Experimental , có thể kết nối với các ứng dụng của Google bao gồm Google Search, Google Maps và YouTube. Mô hình này khả dụng cho tất cả người dùng Gemini , trả phí hoặc không, và chúng tôi đã thử nghiệm nó trên một số clip bằng giao diện web của Gemini.

Nếu bạn mở Gemini trên web , bắt đầu một cuộc trò chuyện mới và đi đến trình chọn mô hình ở góc trên bên trái, bạn sẽ thấy một mô hình có nhãn 2.0 Flash Thinking (thử nghiệm) . Đây là mô hình có kết nối ứng dụng Google tích hợp sẵn, mặc dù hầu hết thời gian bạn cần chỉ định ứng dụng nào bạn muốn sử dụng (ví dụ như khi tìm kiếm một địa điểm trên Google Maps).

Mô hình này cũng không khó tìm trong ứng dụng Gemini dành choAndroid hoặc iOS : Nếu bạn chạm vào menu thả xuống ở đầu cuộc trò chuyện mới (sẽ được gắn nhãn theo mô hình bạn đang sử dụng), bạn sẽ thấy tùy chọn Flash Thinking 2.0 (thử nghiệm) có sẵn để lựa chọn.

Bạn có thể thấy tính năng này dễ sử dụng hơn một chút trên web, nơi bạn có thể kéo URL YouTube giữa các tab trình duyệt để phân tích, nhưng bạn cũng có thể sử dụng tính năng này trên thiết bị di động. Bên cạnh việc phân tích video YouTube, bạn có thể tìm kiếm nội dung mới: Hãy thử yêu cầu YouTube cung cấp video về các điểm nổi bật của bóng chày hoặc giải thích khoa học, chẳng hạn.

Để bắt đầu, chúng tôi đưa Gemini vào làm việc trên một gói điểm nổi bật của các điểm nổi bật Super Bowl LIX năm ngoái—gần 20 phút hành động—để xem AI sẽ làm gì với nó. Để bắt đầu, chúng tôi chỉ hỏi "Điều gì đang xảy ra trong trò chơi này?" và trong vài giây, chúng tôi đã có thông tin chi tiết về các đội và đội nào đã chiến thắng (mà AI đã trả lời đúng), cùng một số điểm nổi bật chính.

Một câu hỏi tiếp theo về tỷ số cuối cùng đã được trả lời đúng, nhưng Gemini đã ghi sai tên người ghi bàn thắng đầu tiên: AI gợi ý đó là Johan Dotson. Dotson đã được hiển thị ghi bàn thắng trong phần nổi bật với tỷ số là 0-0, nhưng điều đó đã bị loại trừ—một ví dụ về những sắc thái mà AI không nhất thiết phải nắm bắt được.

Gemini đã xác định thành công thời điểm Kansas City Chiefs ghi được điểm đầu tiên và thậm chí còn bao gồm cả dấu thời gian liên kết trực tiếp đến cú chạm bóng trong clip YouTube. Nó cũng ghi đúng tên người ghi bàn. Có vẻ như Gemini phụ thuộc rất nhiều vào bình luận cho các clip thể thao, điều này không có gì đáng ngạc nhiên.

Tiếp theo, chúng tôi thử đưa Gemini vào một đoạn phim hậu trường của The Grand Budapest Hotel, do Wes Anderson đạo diễn. Đoạn phim dài bốn phút rưỡi và Gemini đã phản hồi ngay lập tức: Nó xác định tên của bộ phim đang được nói đến và những nhịp điệu chính của câu chuyện trong đoạn phim.

Tuy nhiên, tất cả lại phụ thuộc vào âm thanh (hoặc bản ghi chép)—có vẻ như không có bất kỳ phân tích nào về nội dung video thực tế. AI không thể nói ai là người nói chuyện trong video, mặc dù tên của họ được hiển thị trên màn hình và không thể nói ai là đạo diễn (mặc dù điều này cũng được đề cập trong phần mô tả video).

Mặt tích cực là Gemini đã làm rất tốt việc tóm tắt âm thanh của video. Nó đã xác định chính xác một số thách thức làm phim được đề cập trong suốt quá trình và cung cấp dấu thời gian cho chúng — từ việc tìm kiếm bối cảnh để đại diện cho Grand Budapest, cho đến việc lấp đầy nó bằng các phần bổ sung.

Cuối cùng, chúng tôi đã thử Google Gemini với một cuộc phỏng vấn : Kênh 4 tại Anh nói chuyện với Charlie Brooker và Siena Kelly về loạt phim Black Mirror mới nhất (có lẽ phù hợp cho một bài viết về AI). Gemini đã chứng minh rằng mình rất có khả năng chọn ra các điểm cần nói và thêm dấu thời gian, mặc dù tất nhiên toàn bộ video chủ yếu là nói.

Tuy nhiên, một lần nữa, không có ngữ cảnh nào về bất kỳ điều gì ngoài âm thanh hoặc bản ghi chép. Gemini AI không thể nói cuộc phỏng vấn diễn ra ở đâu, hoặc những người tham gia hành động như thế nào, hoặc bất kỳ điều gì khác về hình ảnh của video—điều này đáng để ghi nhớ nếu bạn tự sử dụng.

Đối với các video mà câu trả lời bạn muốn có nằm trong phần âm thanh của video YouTube và bản ghi chép liên quan, Gemini thực sự hiệu quả trong việc tóm tắt và cung cấp câu trả lời chính xác (với điều kiện là người bình luận đề cập đến thời điểm một cú chạm bóng bị loại trừ, cũng như thời điểm một cú chạm bóng được ghi). Đối với bất kỳ loại thông tin trực quan nào, bạn vẫn phải tự xem video.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận