大型人工智能公司不断承诺他们的技术将为我们节省时间并提高生产力——尽管存在关于版权滥用、非法内容以及急剧上升的能源使用等不太方便的问题。但如果你想在繁忙的日程中腾出更多时间,人工智能可以成为一个有用的工具,也许还有一些你未曾想到的方式。
其中之一可能是总结YouTube视频。人工智能已经证明可以相当可靠地进行总结(尽管并非总是),如果你只需要从15或30分钟长的一系列视频中提取几个要点,节省的时间可以很快累积起来。
Google Gemini推出了一款新的人工智能模型,Gemini 2.0 Flash思考实验版,可以连接Google应用,包括Google搜索、Google地图和YouTube。该模型对所有Gemini用户开放,无论是付费还是免费用户,我们使用Gemini的网页界面对一系列剪辑进行了测试。
如果你在网页上打开Gemini 网站,开始新的聊天,并转到左上角的模型选择器,你应该会看到一个标记为2.0 Flash思考(实验性)的选项。这是内置Google应用连接的模型,尽管大多数情况下你需要指定要使用的应用(例如在Google地图上查找地点)。
在Android或iOS的Gemini应用中也不难找到该模型:如果你点击新对话顶部的下拉菜单(应标有你当前使用的模型),你将看到可供选择的2.0 Flash思考(实验性)选项。
你可能会发现在网页上使用这个功能更容易,可以在浏览器标签之间拖动YouTube网址进行分析,但在移动设备上也可以使用。除了分析YouTube视频,你还可以搜索新内容:例如,尝试询问棒球集锦或科学解释视频。
首先,我们让Gemini处理去年超级碗LIX的集锦——近20分钟的精彩镜头——看看人工智能会怎么分析。一开始我们只问"这场比赛发生了什么?"几秒钟后,我们得到了球队和获胜者的详细信息(人工智能判断正确),以及一些关键精彩镜头。
后续询问最终比分时,得到了正确答复,但Gemini错误地说第一个触地得分是由约翰·多特森完成。多特森确实在比分为0-0时出现了触地得分镜头,但被判无效——这是人工智能可能无法捕捉到的细微差别。
Gemini成功识别了堪萨斯城酋长队获得的第一分,并直接在YouTube剪辑中链接了触地得分的时间戳。它还正确说出了得分球员的名字。看起来Gemini在体育剪辑中高度依赖解说,这并不奇怪。
接下来,我们让Gemini分析韦斯·安德森执导的《布达佩斯大饭店》的幕后特辑。这段剪辑长四分半钟,Gemini几乎立即给出了回复:它识别出了讨论的电影名称,并概括了剪辑叙事的主要情节。
然而,它再次完全依赖音频(或文字稿)——似乎并没有对视频内容本身进行任何分析。尽管屏幕上显示了说话者的名字,但人工智能无法说出他们是谁,也无法说出导演是谁(尽管这在视频描述中也有提及)。
好的方面是,Gemini在总结视频音频方面做得相当出色。它正确识别了视频中提到的一些电影制作挑战,并提供了它们的时间戳——从寻找代表布达佩斯大饭店的场景,到为场景填充群众演员。
最后,我们用Google Gemini测试了一个采访:英国第四频道采访查理·布鲁克和西耶娜·凯利,讨论《黑镜》的最新系列(对于一篇关于人工智能的文章来说可能很恰当)。Gemini证明自己非常擅长提取要点并添加时间戳,尽管整个视频主要是对话。
但同样,它对音频或文字稿之外的任何背景都一无所知。Gemini人工智能无法说出采访地点,无法描述参与者的表演,也无法说明视频的任何视觉细节——使用时需要牢记这一点。
对于那些你想要的答案在YouTube视频音频及其相关文字稿中的视频,Gemini在总结和提供准确答案方面表现非常出色(前提是解说员提到了触地得分被判无效以及何时得分)。至于任何类型的视觉信息,你仍然需要自己观看视频。





