如何使用Gemini AI 總結 YouTube 視頻

avatar
WIRED
04-27
本文為機器翻譯
展示原文

大型人工智慧公司不斷承諾他們的技術將為我們節省時間並提高生產力——儘管存在關於版權濫用非法內容以及急劇上升的能源使用等不太方便的問題。但如果你想在繁忙的日程中騰出更多時間,人工智慧可以成為一個有用的工具,也許還有一些你未曾想到的方式。

其中之一可能是總結YouTube影片。人工智慧已經證明可以相當可靠地進行總結(儘管並非總是),如果你只需要從15或30分鐘長的一系列影片中提取幾個要點,節省的時間可以很快累積起來。

Google Gemini推出了一款新的人工智慧模型,Gemini 2.0 Flash思考實驗版,可以連線Google應用,包括Google搜尋、Google地圖和YouTube。該模型對所有Gemini使用者開放,無論是付費還是免費使用者,我們使用Gemini的網頁介面對一系列剪輯進行了測試。

如果你在網頁上開啟Gemini 網站,開始新的聊天,並轉到左上角的模型選擇器,你應該會看到一個標記為2.0 Flash思考(實驗性)的選項。這是內建Google應用連線的模型,儘管大多數情況下你需要指定要使用的應用(例如在Google地圖上查詢地點)。

AndroidiOS的Gemini應用中也不難找到該模型:如果你點選新對話頂部的下拉選單(應標有你當前使用的模型),你將看到可供選擇的2.0 Flash思考(實驗性)選項。

你可能會發現在網頁上使用這個功能更容易,可以在瀏覽器標籤之間拖動YouTube網址進行分析,但在移動裝置上也可以使用。除了分析YouTube影片,你還可以搜尋新內容:例如,嘗試詢問棒球集錦或科學解釋影片。

首先,我們讓Gemini處理去年超級碗LIX的集錦——近20分鐘的精彩鏡頭——看看人工智慧會怎麼分析。一開始我們只問"這場比賽發生了什麼?"幾秒鐘後,我們得到了球隊和獲勝者的詳細資訊(人工智慧判斷正確),以及一些關鍵精彩鏡頭。

後續詢問最終比分時,得到了正確答覆,但Gemini錯誤地說第一個觸地得分是由約翰·多特森完成。多特森確實在比分為0-0時出現了觸地得分鏡頭,但被判無效——這是人工智慧可能無法捕捉到的細微差別。

Gemini成功識別了堪薩斯城酋長隊獲得的第一分,並直接在YouTube剪輯中連結了觸地得分的時間戳。它還正確說出了得分球員的名字。看起來Gemini在體育剪輯中高度依賴解說,這並不奇怪。

接下來,我們讓Gemini分析韋斯·安德森執導的《布達佩斯大飯店》的幕後特輯。這段剪輯長四分半鐘,Gemini幾乎立即給出了回覆:它識別出了討論的電影名稱,並概括了剪輯敘事的主要情節。

然而,它再次完全依賴音訊(或文字稿)——似乎並沒有對影片內容本身進行任何分析。儘管螢幕上顯示了說話者的名字,但人工智慧無法說出他們是誰,也無法說出導演是誰(儘管這在影片描述中也有提及)。

好的方面是,Gemini在總結影片音訊方面做得相當出色。它正確識別了影片中提到的一些電影製作挑戰,並提供了它們的時間戳——從尋找代表布達佩斯大飯店的場景,到為場景填充群眾演員。

最後,我們用Google Gemini測試了一個採訪:英國第四頻道採訪查理·布魯克和西耶娜·凱利,討論《黑鏡》的最新系列(對於一篇關於人工智慧的文章來說可能很恰當)。Gemini證明自己非常擅長提取要點並新增時間戳,儘管整個影片主要是對話。

但同樣,它對音訊或文字稿之外的任何背景都一無所知。Gemini人工智慧無法說出採訪地點,無法描述參與者的表演,也無法說明影片的任何視覺細節——使用時需要牢記這一點。

對於那些你想要的答案在YouTube影片音訊及其相關文字稿中的影片,Gemini在總結和提供準確答案方面表現非常出色(前提是解說員提到了觸地得分被判無效以及何時得分)。至於任何型別的視覺資訊,你仍然需要自己觀看影片。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
1
評論