殺死 ChatGPT 聊天框的,是「鼠標」

1968 年的舊金山,計算機科學家道格拉斯·恩格爾巴特在一場後來被稱為「演示之母(The Mother of All Demos)」的發佈會上,拿出一個帶著兩個金屬輪子的木製小盒子,向世界介紹了一個新物種:鼠標。

那是人類第一次公開用手上的鼠標,去牽引屏幕裡的數字光標。此後的幾十年裡,這根小箭頭幾乎無處不在。它穿過辦公軟件、遊戲界面、瀏覽器窗口和無數張電子表格,成為人類進入數字世界時最熟悉、也最沉默的嚮導。

然而在這半個多世紀裡,計算機的算力、形態和應用場景幾乎改頭換面,鼠標光標的本質幾乎沒有變過:它知道自己停在屏幕上的哪個座標,知道 X 和 Y,卻不知道你指向的是一行代碼、一張發票,還是一張風景照。 

面對眼前不斷閃爍的像素,它能做的事情依舊相當樸素:點擊,拖拽,等待下一次點擊。

今天,Google 要用 Gemini 重新發明鼠標光標。

在剛剛落幕的 Android Show 上,Google 幾乎把圍繞 Android、AI 與硬件生態的規劃攤在了檯面上。其中,一項名為「魔法指針(Magic Pointer)」的新功能,給古老的鼠標光標裝上了「眼睛」和「大腦」。 

Google 的意圖不言而喻,未來的 AI 交互不該依賴冗長的提示詞,只需像在現實生活中一樣,指著屏幕說一句:「把這個,移到那裡。」那麼問題來了,當鼠標光標終於學會「看懂」屏幕,它究竟會把人機交互帶向哪裡? 

這根睜開眼睛的 AI 箭頭,到底能幹嘛? 

要理解這項技術的意義,必須先看清當下 AI 工具最彆扭的一面:交互成本。 

過去幾年,大語言模型的能力一路狂飆,但使用門檻居高不下。為了讓 AI 準確理解意圖,用戶被迫學習一套複雜的「提示詞工程」:設定角色、補充背景、限定輸出格式。為了一個簡單的需求,寫出幾百字小作文更是家常便飯。 

不僅如此,典型的 AI 工具通常運行在獨立的網頁或應用窗口中,頻繁打斷用戶的工作流。比如當你在閱讀一份 50 頁的 PDF 時想讓 AI 總結一張圖表,通常需要經歷:截圖 -> 保存 -> 打開瀏覽器 -> 進入 AI 網頁 -> 上傳圖片 -> 輸入提示詞。 

Google 將這種繁瑣的跨應用操作稱為「AI 繞路(AI detours)」。這種跳轉不僅效率低下,也容易打斷人們工作時的注意力集中狀態,即所謂的「心流」。

為此,Google 提出的第一個交互原則,就是「保持心流」。在他們展示的實驗性 AI 光標原型中,AI 的能力不再侷限於某個特定的 App 或網頁,而是附著在鼠標光標上,隨時待命。 

觸發方式也儘量剋制:無需記憶任何快捷鍵,只需輕輕「晃一下」鼠標,AI 界面便會基於當前懸停的內容自動浮現,給出極具語境的操作建議。選中圖,它會詢問是否「對比」;懸停於段落之上,它會主動提供潤色方案。 

整個過程沒有任何需要學習的指令,完全跟著直覺走。來看幾個極其直觀的場景: 

第一,看圖說話的終極形態。

當你在瀏覽一張卡通的城市風景照時,傳統鼠標只能點擊圖片放大。但現在,你只需把 AI 光標懸停在照片背景裡的一棟建築上,然後對著麥克風說一句:「給我移動圖片的元素到這。」 

不需要解釋「這兒」是誰,也不需要描述建築外觀。AI 光標會直接理解你所指向的像素,識別出對應元素,併成功移動。 

過去,鼠標只能告訴系統「我點了哪裡」;現在,它開始告訴系統「我指的是什麼」。 

第二,少寫提示詞,多用自然指代。

當你在網頁上看到一份極其複雜的烘焙菜譜,你不需要複製粘貼,也不需要寫「請將以下菜譜裡的所有食材分量乘以二」這種書面語。你只需要用光標高亮那段文字,然後隨口說一句:「把『這些』的分量翻倍。」 

唰的一下,AI 直接在原地給你改寫了一份新菜譜。 

第三,將像素轉化為可交互實體。

在計算機眼裡,屏幕只是幾百萬個發光的像素點。但 AI 光標能將死板的像素(Pixels)轉化為活的實體(Entities)。 

比如,你正在看一段旅行 Vlog,視頻裡閃過一家看起來很棒的餐廳。你按下暫停,把光標指過去,原本死氣沉沉的視頻畫面瞬間變成了一個真實的、可交互的地點,旁邊直接彈出了這家餐廳的訂座鏈接。 

再比如,你隨手拍了一張寫滿鬼畫符的便利貼,鼠標一指,墨跡直接變成了一個可以打勾的 To-Do List。發現了嗎? 以前,是你去找 AI;現在,是 AI 順著你的鼠標,乖乖來到了你的指尖。 

殺死 AI 提示詞,迴歸人類直覺 

仔細想想,人類最強大的溝通工具其實是代詞。

當你和同事坐在屏幕前修改設計稿時,你絕對不會字正腔圓地說:「請將屏幕左上角座標 (X:120, Y:350) 處的藍色矩形向右移動 50 個像素。」你只會指著屏幕說: 

「把這個,往右挪一點,弄淡一點。」 

「那個餐廳看起來不錯,怎麼去?」 

「這段代碼裡的這個報錯是什麼意思?」 

在日常生活中,我們極度依賴「這個」和「那個」。手勢配合著極簡的口語,才是人類最高效的溝通密碼。究其原因,我們身處同一個物理空間,共享著同一套視覺上下文。

Google 敏銳地抓住了這一點,並將其提煉成了一條產品原則:擁抱「這」與「那」的力量(Embrace the power of This and That)。 

與其強迫人類去學習複雜的提示詞框架,不如反其道而行之,把表達意圖的髒活累活從我們身上剝離出去,讓機器去適應人類最慵懶、最本能的「指手畫腳」。

好消息是,這套交互方式已經開始落地。Chrome 瀏覽器裡的 Gemini 從今天起率先支持;Google 全新推出的筆記本電腦產品線 Googlebook,則將「Magic Pointer」直接內置進了操作系統層面,覆蓋所有應用。

Googlebook 的野心不止於鼠標。Google 將這個產品線定義為「Android 手機的完美伴侶」。 

類似蘋果的 iPhone 鏡像,用戶可將 Android 應用無縫投射到 Googlebook 桌面,以原生比例運行,並在文件管理器中跨設備自由穿梭,徹底打破手機、平板與筆記本的生態壁壘。此外,Gemini 還能依你所需,在桌面生成專屬動態 Widget(比如旅客的實時航班卡片)。 

在硬件設計上,所有 Googlebook 機型都會在機身上集成一條「Glowbar」發光條,讓你一眼就能分辨出它與傳統 Chromebook 或 Windows 筆記本的區別。 

首批 Googlebook 將由宏碁(Acer)、華碩(Asus)、戴爾(Dell)、惠普(HP)和聯想(Lenovo)製造,預計今年秋天上市。 

有意思的是,三星缺席了這份名單。近期的消息顯示,三星可能正在籌備一款搭載 Google 新系統的 Galaxy 筆記本,其下一場 Unpacked 發佈會據傳定在 7 月 22 日。 

至於底層的驅動核心,Google 雖未指名道姓,但通篇強化的「為智能而生的現代操作系統」以及 Android 與 ChromeOS 的深度融合,種種跡象均指向了傳聞已久的 「Aluminum」系統。 

這意味著,AI 開始成了操作系統級別的基礎設施。而當 AI 真正化身為你的鼠標光標,它便擁有了介入萬物的權限——所見即所得,所指即所控。

AI 人機交互,迎來十字路口 

回望 1968 年,那個驚豔世界的初代鼠標,功能簡單得令人髮指:追蹤位置。 這五十多年來,鼠標加了滾輪、加了側鍵、甚至加了風扇和配重塊,但它的靈魂依然是一張白紙:它準確地標記著座標,卻永遠無法理解座標背後的意義。

 Google 的 AI 光標完成了交互史上罕見的進化:它不僅知道你在哪,更知道那是什麼。 

過去一年,無數拿了融資的創業公司擠破頭,試圖造出下一個「AI 時代超級入口」。大家瘋狂地卷對話框的擬真度、卷 Agent 的複雜工作流。但 Google 這次用行動給全行業結結實實地上了一課: 

最好的科技是什麼?是潤物細無聲。聊天框(Chatbox)從來都不是 AI 的最終形態,它只是一種過渡期的妥協。最好的 AI,應該退居幕後,成為一種附著在你日常動作上的基礎設施,而不僅僅是某個需要單獨打開的應用。 

從黑底白字的命令行(CLI),到圖形界面的鼠標點擊(GUI),再到移動時代的觸屏滑動(NUI)。過去幾年,大語言模型讓我們短暫地倒退回了打字交流的時代,讓無數人患上了 Prompt 焦慮症。 

但今天過後,我們知道了,那不過是黎明前的一段彎路。真正好用的 AI,終究要學會像人類一樣思考:看懂你的每一個眼神,聽懂你的每一句「把這個,放到那兒去」。 

58 年前,當道格拉斯·恩格爾巴特握住那個簡陋的木製鼠標時,他的終極夢想是「增強人類的智慧」。 

58 年後,當 AI 附身於這個古老的指針,機器終於開始真正「看懂」這個世界。屬於提示詞工程師的時代終將落幕,人機交互的終極閉環,也將在一句句含糊不清的「這個、那個」中,向前邁出歷史性的一大步。

附體驗地址: 

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true 

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true 

本文來自微信公眾號“APPSO”,作者:發現明日產品的,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論