谷歌利用 Android 上的Gemini指出移動計算的未來和過去

avatar
WIRED
05-15
本文為機器翻譯
展示原文

近十年前,谷歌在 Android Marshmallow 中展示了一項名為Now on Tap的功能——點擊並按住主頁按鈕,谷歌就會顯示與屏幕內容相關的有用上下文信息。和朋友發短信談論電影?Now on Tap 可以讓你無需離開消息應用程序即可獲得有關標題的詳細信息。在 Yelp 上查看餐廳?只需輕按一下,手機就可以顯示 OpenTable 推薦。

我剛從大學畢業,這些改進讓我感到興奮和神奇——它能夠理解屏幕上的內容並預測你可能想要採取的行動,這讓人感覺面向未來。這是我最喜歡的 Android 功能之一。它慢慢演變成 Google Assistant,它本身就很棒,但並不完全一樣。

今天,在加利福尼亞州山景城舉行的 Google I/O 開發者大會上,Google 大力宣傳的 Android 操作系統新功能就像是舊版的 Now on Tap——讓您能夠利用周圍的上下文信息,讓手機使用起來更加輕鬆。不過這一次,這些功能是由大型語言模型十年來的進步所驅動的。

“我認為令人興奮的是,我們現在擁有了打造真正令人興奮的助手的技術,”Android 工程副總裁戴夫·伯克 (Dave Burke) 在 Google Meet 視頻通話中告訴我。“我們需要一個能夠理解所見所聞的計算機系統,我認為我們當時沒有技術可以很好地做到這一點。現在我們有了。”

我有機會與伯克和谷歌 Android 生態系統總裁薩米爾·薩馬特 (Sameer Samat) 進行了交談,討論了 Android 世界中的新鮮事物、該公司的新AI 助手Gemini以及這一切對操作系統未來的影響。薩馬特將這些更新稱為“千載難逢的機會,可以重新想象手機的功能,並重新思考整個 Android。”

首先是“圈選搜索”,這是谷歌在移動設備上搜索的新方式。與 Now on Tap 的體驗非常相似,該公司幾個月前推出的“圈選搜索”比在搜索框中輸入內容更具互動性。(你只需在屏幕上圈出要搜索的內容即可。)伯克說:“這是一種非常直觀、有趣且現代的搜索方式……它也更受年輕人的青睞,因為它使用起來非常有趣。”

Samat 聲稱,谷歌已經收到了來自消費者的積極反饋,但 Circle to Search 的最新功能則專門來自學生的反饋。現在,Circle to Search 可用於解答物理和數學問題,只要用戶圈出這些問題即可——谷歌會逐步給出解答問題的說明,而無需用戶離開教學大綱應用。

Samat 明確表示,Gemini不僅提供答案,還向學生展示如何解決問題。今年晚些時候,Circle to Search 將能夠解決更復雜的問題,如圖表和圖形。這一切都由 Google 的 LearnLM 模型提供支持,這些模型針對教育進行了微調。

Gemini是 Google 的 AI 助手,它在很多方面都超越了 Google Assistant。真的——如今,當你在大多數Android 手機上啟動 Google Assistant 時,都可以選擇用Gemini替換它。所以很自然地,我問 Burke 和 Samat,這是否意味著 Assistant 即將走向Google 墓地

“從這個角度來看, Gemini是一種手機上的可選體驗,”Samat 說道。“我認為,隨著時間的推移, Gemini顯然會變得更加先進,不斷發展。我們今天沒有任何消息要宣佈,但如果消費者想要選擇這款新的人工智能助手,他們可以選擇。他們可以試用,我們看到人們正在這樣做,我們也收到了很多很棒的反饋。”

在 I/O 大會上, Gemini Android 版的更新是為了使其更具情境感知能力,就像近十年前的 Now on Tap 一樣。今年晚些時候,你將能夠使用Gemini生成圖像,並將其拖放到 Gmail 或 Google Messages 等應用中。Burke 向我展示了Gemini生成網球和泡菜圖像的一個例子;他當時正在回覆某人關於打泡菜球的短信。他叫來Gemini(它以疊加層的形式彈出在消息應用程序上),要求它生成圖像,然後將圖像拖放到聊天中。

然後,他打開了一段關於匹克球規則的 YouTube 視頻。觀看時打開Gemini ,你會看到一個提示“詢問此視頻”。這樣,你就可以使用Gemini在視頻中查找特定信息,而無需自己瀏覽整個視頻。(誰有時間這樣做?)Burke 詢問了一條具體的匹克球規則, Gemini很快就根據視頻給出了答案。這種“總結”功能一直是許多 AI 工具的標誌——總結 PDF、視頻、備忘錄和新聞報道(耶)。

說到 PDF,您很快就能將 PDF 附加到Gemini (將出現“詢問此 PDF”的提示), Gemini可以提供具體信息,讓您無需滾動瀏覽多個頁面。Burke 表示,這些功能將在未來幾個月內推廣到數百萬臺設備,但 PDF 功能僅供Gemini Advanced 用戶使用——這些人 每月支付 20 美元的訂閱費即可使用 Google 人工智能模型的尖端功能。

Gemini通常會根據屏幕上的當前情況顯示更多“動態建議”。當您激活助手時,這些建議會彈出在Gemini覆蓋層上方。

Gemini Nano是 Google 的大型語言模型,為某些手機上的部分設備功能提供支持,例如Pixel 8 系列三星 Galaxy S24 系列,甚至是新款Pixel 8A 。將這些功能作為設備功能運行意味著無需將數據發送到雲端,從而使這些功能更加私密。它們甚至還可以離線工作。

目前,Nano 支持 Google 錄音機應用中的“總結”等功能,該功能可總結轉錄內容,以及部分消息應用中的“智能回覆”功能,該功能可為消息提供更多上下文自動回覆。Google 的新款Gemini Nano 具有多模態功能,將於今年推出,首先在 Pixel 手機上推出。雖然名字有點拗口,但或多或​​少意味著Gemini Nano 的功能將不僅僅是處理文本。

“這是一個 38 億參數的模型,而且是多模態的——這是第一個內置在設備上的多模態模型,”Burke 說。“它非常強大。在學術基準測試中,它達到了Gemini 1.0 的 80% 左右,對於一個小模型來說,這相當了不起。”

該模型現在將為 Google 現有的 Android TalkBack 屏幕閱讀器功能提供支持,該功能可幫助盲人和視力較差的用戶瞭解屏幕上的內容。據稱, Gemini Nano 將提供更豐富、更精確的每張圖片描述。Google 表示,TalkBalk 用戶平均每天會看到“90 張未標記的圖片”,但Gemini可以填補這一空白,因為它能夠可視化和理解屏幕上的圖像,並在用戶離線時對其進行描述。

過去幾年,谷歌投入了大量人工智能技術來改進其呼叫篩選技術以限制自動呼叫,而具有多模態功能的Gemini Nano 很快將幫助您實時避免電話詐騙。一項名為“詐騙檢測”的新功能將讓Gemini監聽您的電話,如果它檢測到對方的某些短語或請求,它將發出警報,提醒您可能正在遭遇詐騙電話。伯克表示,該模型是根據BanksNeverAskThat.com等網站的數據進行訓練的,以瞭解銀行不會問您什麼問題,以及詐騙者通常會要求您提供哪些類型的信息。他說,所有這些監聽和檢測都發生在設備上,因此是私密的。我們將在今年晚些時候聽到有關此“選擇加入功能”的更多信息。

不同尋常的是,谷歌表示將在明天發佈一些新的 Android 功能,而不是將所有新功能都壓縮到今天的公告中,因此請繼續關注更多信息。

隨著 人工智能硬件設備的興起,它們爭相取代你的智能手機,以及無應用生成界面的討論,我問薩馬特他認為未來五年 Android 會如何變化。他很高興看到新老公司嘗試新事物,並且谷歌“內部也在嘗試很多事情”。但他將事情歸結為與汽車領域的類比。

如果你買了一輛車,你就會期待一些標準功能,比如方向盤。但有了人工智能,一個巨大的飛躍就是去掉這些功能——沒有方向盤,沒有界面。“有些人會對此感到興奮,有些人則不會。”他認為,在人工智能的幫助下,我們在手機上使用的某些功能將比以往任何時候都更有幫助——我們可以期待一些功能以這種方式被取代。

“隨著這種情況的持續,我們會發現——而且我們已經在自己的測試中看到了這一點——有機會從根本上改變某些領域的用戶界面,從‘好吧,這真的很有幫助’轉變為‘實際上,應該有一種全新的方法來做到這一點’。這就是現在有趣和令人興奮的地方。現在是研究這項技術的好時機。”

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
4
收藏
1
評論