谷歌利用 Android 上的Gemini指出移动计算的未来和过去

05-15

本文为机器翻译

展示原文

近十年前，谷歌在 Android Marshmallow 中展示了一项名为Now on Tap的功能——点击并按住主页按钮，谷歌就会显示与屏幕内容相关的有用上下文信息。和朋友发短信谈论电影？Now on Tap 可以让你无需离开消息应用程序即可获得有关标题的详细信息。在 Yelp 上查看餐厅？只需轻按一下，手机就可以显示 OpenTable 推荐。

我刚从大学毕业，这些改进让我感到兴奋和神奇——它能够理解屏幕上的内容并预测你可能想要采取的行动，这让人感觉面向未来。这是我最喜欢的 Android 功能之一。它慢慢演变成 Google Assistant，它本身就很棒，但并不完全一样。

今天，在加利福尼亚州山景城举行的 Google I/O 开发者大会上，Google 大力宣传的 Android 操作系统新功能就像是旧版的 Now on Tap——让您能够利用周围的上下文信息，让手机使用起来更加轻松。不过这一次，这些功能是由大型语言模型十年来的进步所驱动的。

“我认为令人兴奋的是，我们现在拥有了打造真正令人兴奋的助手的技术，”Android 工程副总裁戴夫·伯克 (Dave Burke) 在 Google Meet 视频通话中告诉我。“我们需要一个能够理解所见所闻的计算机系统，我认为我们当时没有技术可以很好地做到这一点。现在我们有了。”

我有机会与伯克和谷歌 Android 生态系统总裁萨米尔·萨马特 (Sameer Samat) 进行了交谈，讨论了 Android 世界中的新鲜事物、该公司的新AI 助手Gemini以及这一切对操作系统未来的影响。萨马特将这些更新称为“千载难逢的机会，可以重新想象手机的功能，并重新思考整个 Android。”

首先是“圈选搜索”，这是谷歌在移动设备上搜索的新方式。与 Now on Tap 的体验非常相似，该公司几个月前推出的“圈选搜索”比在搜索框中输入内容更具互动性。（你只需在屏幕上圈出要搜索的内容即可。）伯克说：“这是一种非常直观、有趣且现代的搜索方式……它也更受年轻人的青睐，因为它使用起来非常有趣。”

Samat 声称，谷歌已经收到了来自消费者的积极反馈，但 Circle to Search 的最新功能则专门来自学生的反馈。现在，Circle to Search 可用于解答物理和数学问题，只要用户圈出这些问题即可——谷歌会逐步给出解答问题的说明，而无需用户离开教学大纲应用。

Samat 明确表示，Gemini不仅提供答案，还向学生展示如何解决问题。今年晚些时候，Circle to Search 将能够解决更复杂的问题，如图表和图形。这一切都由 Google 的 LearnLM 模型提供支持，这些模型针对教育进行了微调。

Gemini是 Google 的 AI 助手，它在很多方面都超越了 Google Assistant。真的——如今，当你在大多数Android 手机上启动 Google Assistant 时，都可以选择用Gemini替换它。所以很自然地，我问 Burke 和 Samat，这是否意味着 Assistant 即将走向Google 墓地。

“从这个角度来看， Gemini是一种手机上的可选体验，”Samat 说道。“我认为，随着时间的推移， Gemini显然会变得更加先进，不断发展。我们今天没有任何消息要宣布，但如果消费者想要选择这款新的人工智能助手，他们可以选择。他们可以试用，我们看到人们正在这样做，我们也收到了很多很棒的反馈。”

在 I/O 大会上， Gemini Android 版的更新是为了使其更具情境感知能力，就像近十年前的 Now on Tap 一样。今年晚些时候，你将能够使用Gemini生成图像，并将其拖放到 Gmail 或 Google Messages 等应用中。Burke 向我展示了Gemini生成网球和泡菜图像的一个例子；他当时正在回复某人关于打泡菜球的短信。他叫来Gemini（它以叠加层的形式弹出在消息应用程序上），要求它生成图像，然后将图像拖放到聊天中。

然后，他打开了一段关于匹克球规则的 YouTube 视频。观看时打开Gemini ，你会看到一个提示“询问此视频”。这样，你就可以使用Gemini在视频中查找特定信息，而无需自己浏览整个视频。（谁有时间这样做？）Burke 询问了一条具体的匹克球规则， Gemini很快就根据视频给出了答案。这种“总结”功能一直是许多 AI 工具的标志——总结 PDF、视频、备忘录和新闻报道（耶）。

说到 PDF，您很快就能将 PDF 附加到Gemini （将出现“询问此 PDF”的提示）， Gemini可以提供具体信息，让您无需滚动浏览多个页面。Burke 表示，这些功能将在未来几个月内推广到数百万台设备，但 PDF 功能仅供Gemini Advanced 用户使用——这些人每月支付 20 美元的订阅费即可使用 Google 人工智能模型的尖端功能。

Gemini通常会根据屏幕上的当前情况显示更多“动态建议”。当您激活助手时，这些建议会弹出在Gemini覆盖层上方。

Gemini Nano是 Google 的大型语言模型，为某些手机上的部分设备功能提供支持，例如Pixel 8 系列、三星 Galaxy S24 系列，甚至是新款Pixel 8A 。将这些功能作为设备功能运行意味着无需将数据发送到云端，从而使这些功能更加私密。它们甚至还可以离线工作。

目前，Nano 支持 Google 录音机应用中的“总结”等功能，该功能可总结转录内容，以及部分消息应用中的“智能回复”功能，该功能可为消息提供更多上下文自动回复。Google 的新款Gemini Nano 具有多模态功能，将于今年推出，首先在 Pixel 手机上推出。虽然名字有点拗口，但或多或少意味着Gemini Nano 的功能将不仅仅是处理文本。

“这是一个 38 亿参数的模型，而且是多模态的——这是第一个内置在设备上的多模态模型，”Burke 说。“它非常强大。在学术基准测试中，它达到了Gemini 1.0 的 80% 左右，对于一个小模型来说，这相当了不起。”

该模型现在将为 Google 现有的 Android TalkBack 屏幕阅读器功能提供支持，该功能可帮助盲人和视力较差的用户了解屏幕上的内容。据称， Gemini Nano 将提供更丰富、更精确的每张图片描述。Google 表示，TalkBalk 用户平均每天会看到“90 张未标记的图片”，但Gemini可以填补这一空白，因为它能够可视化和理解屏幕上的图像，并在用户离线时对其进行描述。

过去几年，谷歌投入了大量人工智能技术来改进其呼叫筛选技术以限制自动呼叫，而具有多模态功能的Gemini Nano 很快将帮助您实时避免电话诈骗。一项名为“诈骗检测”的新功能将让Gemini监听您的电话，如果它检测到对方的某些短语或请求，它将发出警报，提醒您可能正在遭遇诈骗电话。伯克表示，该模型是根据BanksNeverAskThat.com等网站的数据进行训练的，以了解银行不会问您什么问题，以及诈骗者通常会要求您提供哪些类型的信息。他说，所有这些监听和检测都发生在设备上，因此是私密的。我们将在今年晚些时候听到有关此“选择加入功能”的更多信息。

不同寻常的是，谷歌表示将在明天发布一些新的 Android 功能，而不是将所有新功能都压缩到今天的公告中，因此请继续关注更多信息。

随着人工智能硬件设备的兴起，它们争相取代你的智能手机，以及无应用生成界面的讨论，我问萨马特他认为未来五年 Android 会如何变化。他很高兴看到新老公司尝试新事物，并且谷歌“内部也在尝试很多事情”。但他将事情归结为与汽车领域的类比。

如果你买了一辆车，你就会期待一些标准功能，比如方向盘。但有了人工智能，一个巨大的飞跃就是去掉这些功能——没有方向盘，没有界面。“有些人会对此感到兴奋，有些人则不会。”他认为，在人工智能的帮助下，我们在手机上使用的某些功能将比以往任何时候都更有帮助——我们可以期待一些功能以这种方式被取代。

“随着这种情况的持续，我们会发现——而且我们已经在自己的测试中看到了这一点——有机会从根本上改变某些领域的用户界面，从‘好吧，这真的很有帮助’转变为‘实际上，应该有一种全新的方法来做到这一点’。这就是现在有趣和令人兴奋的地方。现在是研究这项技术的好时机。”