大型 AI 公司不断承诺他们的技术将为我们节省时间并提高生产力,尽管围绕在背景中的版权滥用、非法内容和急剧上升的能源使用存在诸多问题。但如果您希望为繁忙的日程表腾出更多时间,AI 可以成为一个有用的工具,也许还有一些您未曾想到的方式。
其中一种可能是总结 YouTube 视频。AI 已经证明可以相当可靠地进行总结(尽管并非总是),如果您只需要从 15 或 30 分钟的视频系列中提取几个要点,节省的时间可以迅速累积。
谷歌 제미니(Gemini)有一个新的 AI 模型,Gemini 2.0 Flash Thinking Experimental,可以连接到包括谷歌搜索、谷歌地图和 YouTube 在内的谷歌应用。该模型对所有 제미니(Gemini) 用户开放,无论是付费还是免费用户,我们使用 제미니(Gemini) 的网页界面对一系列剪辑进行了测试。
如果您在网页上打开 제미니(Gemini),开始新的聊天,并转到左上角的模型选择器,您应该会看到一个标记为 2.0 Flash Thinking (experimental) 的选项。这是内置谷歌应用连接的模型,尽管大多数情况下您需要指定要使用的应用(例如在谷歌地图上查找地点)。
在 Android 或 iOS 的 제미니(Gemini) 应用中,该模型也不难找到:如果您点击新对话顶部的下拉菜单(应标有您当前正在使用的模型),您将看到可供选择的 2.0 Flash Thinking (experimental) 选项。
您可能会发现在网页上使用这个功能更容易,可以在浏览器选项卡之间拖动 YouTube 网址进行分析,但在移动设备上也可以使用。除了分析 YouTube 视频,您还可以搜索新内容:例如,尝试询问 YouTube 上的棒球集锦或科学解释视频。
首先,我们让 제미니(Gemini) 处理去年 超级碗 LIX 的集锦视频,长度近 20 分钟,看看 AI 会如何分析。起初我们只是问"这场比赛发生了什么?",几秒钟后我们就得到了球队和获胜者的详细信息(AI 猜对了),以及一些关键亮点。
关于最终比分的后续问题得到了正确回答,但 제미니(Gemini) 错误地说出了第一个触地得分的得分者:AI 建议是约翰·多特森。多特森确实在比分为 0-0 的集锦中得到了一个触地得分,但被判无效——这是 AI 不一定能捕捉到的细微差别。
제미니(Gemini) 成功识别了堪萨斯城酋长队获得的第一分,并直接在 YouTube 剪辑中链接了触地得分的时间戳。它还正确说出了得分者的名字。看起来 제미니(Gemini) 在体育剪辑中高度依赖解说,这并不令人意外。
接下来,我们让 제미니(Gemini) 分析了韦斯·安德森执导的《布达佩斯大饭店》的幕后特辑。这个剪辑长四分半钟,제미니(Gemini) 几乎立即回复:它识别出了正在讨论的电影名称,并捕捉到了剪辑叙事的主要节奏。
然而,它再次完全依赖音频(或文字记录)——似乎没有对视频内容本身进行任何分析。AI 无法说出视频中的说话者是谁,即使他们的名字已在屏幕上显示,也无法说出导演是谁(尽管这在视频描述中也有提及)。
好的方面是,제미니(Gemini) 在总结视频音频方面做得相当出色。它正确识别了视频中提到的一些电影制作挑战,并提供了它们的时间戳——从寻找代表布达佩斯大饭店的场景,到填充群众演员。
最后,我们用 제미니(Gemini) 测试了一个采访:英国第四频道采访查理·布鲁克和西耶娜·凯利,讨论最新一季的《黑镜》(对于一篇关于 AI 的文章来说可能很恰当)。제미니(Gemini) 证明自己非常擅长提取要点并添加时间戳,尽管整个视频主要是对话。
但同样,它对音频或文字记录之外的任何背景都一无所知。제미니(Gemini) AI 无法说出采访地点,或参与者的表演方式,或视频视觉效果的任何其他细节——使用时需要牢记这一点。
对于那些您想要的答案在 YouTube 视频的音频和相关文字记录中的视频,제미니(Gemini) 在总结和提供准确答案方面非常出色(前提是解说员提到了触地得分被判无效,以及何时得分)。对于任何类型的视觉信息,您仍然需要自己观看视频。




