殺死 ChatGPT 聊天框的，是「鼠標」

36氪

1968 年的舊金山，計算機科學家道格拉斯·恩格爾巴特在一場後來被稱為「演示之母（The Mother of All Demos）」的發佈會上，拿出一個帶著兩個金屬輪子的木製小盒子，向世界介紹了一個新物種：鼠標。

那是人類第一次公開用手上的鼠標，去牽引屏幕裡的數字光標。此後的幾十年裡，這根小箭頭幾乎無處不在。它穿過辦公軟件、遊戲界面、瀏覽器窗口和無數張電子表格，成為人類進入數字世界時最熟悉、也最沉默的嚮導。

然而在這半個多世紀裡，計算機的算力、形態和應用場景幾乎改頭換面，鼠標光標的本質幾乎沒有變過：它知道自己停在屏幕上的哪個座標，知道 X 和 Y，卻不知道你指向的是一行代碼、一張發票，還是一張風景照。

面對眼前不斷閃爍的像素，它能做的事情依舊相當樸素：點擊，拖拽，等待下一次點擊。

今天，Google 要用 Gemini 重新發明鼠標光標。

在剛剛落幕的 Android Show 上，Google 幾乎把圍繞 Android、AI 與硬件生態的規劃攤在了檯面上。其中，一項名為「魔法指針（Magic Pointer）」的新功能，給古老的鼠標光標裝上了「眼睛」和「大腦」。

Google 的意圖不言而喻，未來的 AI 交互不該依賴冗長的提示詞，只需像在現實生活中一樣，指著屏幕說一句：「把這個，移到那裡。」那麼問題來了，當鼠標光標終於學會「看懂」屏幕，它究竟會把人機交互帶向哪裡？

這根睜開眼睛的 AI 箭頭，到底能幹嘛？

要理解這項技術的意義，必須先看清當下 AI 工具最彆扭的一面：交互成本。

過去幾年，大語言模型的能力一路狂飆，但使用門檻居高不下。為了讓 AI 準確理解意圖，用戶被迫學習一套複雜的「提示詞工程」：設定角色、補充背景、限定輸出格式。為了一個簡單的需求，寫出幾百字小作文更是家常便飯。

不僅如此，典型的 AI 工具通常運行在獨立的網頁或應用窗口中，頻繁打斷用戶的工作流。比如當你在閱讀一份 50 頁的 PDF 時想讓 AI 總結一張圖表，通常需要經歷：截圖 -> 保存 -> 打開瀏覽器 -> 進入 AI 網頁 -> 上傳圖片 -> 輸入提示詞。

Google 將這種繁瑣的跨應用操作稱為「AI 繞路（AI detours）」。這種跳轉不僅效率低下，也容易打斷人們工作時的注意力集中狀態，即所謂的「心流」。

為此，Google 提出的第一個交互原則，就是「保持心流」。在他們展示的實驗性 AI 光標原型中，AI 的能力不再侷限於某個特定的 App 或網頁，而是附著在鼠標光標上，隨時待命。

觸發方式也儘量剋制：無需記憶任何快捷鍵，只需輕輕「晃一下」鼠標，AI 界面便會基於當前懸停的內容自動浮現，給出極具語境的操作建議。選中圖，它會詢問是否「對比」；懸停於段落之上，它會主動提供潤色方案。

整個過程沒有任何需要學習的指令，完全跟著直覺走。來看幾個極其直觀的場景：

第一，看圖說話的終極形態。

當你在瀏覽一張卡通的城市風景照時，傳統鼠標只能點擊圖片放大。但現在，你只需把 AI 光標懸停在照片背景裡的一棟建築上，然後對著麥克風說一句：「給我移動圖片的元素到這。」

不需要解釋「這兒」是誰，也不需要描述建築外觀。AI 光標會直接理解你所指向的像素，識別出對應元素，併成功移動。

過去，鼠標只能告訴系統「我點了哪裡」；現在，它開始告訴系統「我指的是什麼」。

第二，少寫提示詞，多用自然指代。

當你在網頁上看到一份極其複雜的烘焙菜譜，你不需要複製粘貼，也不需要寫「請將以下菜譜裡的所有食材分量乘以二」這種書面語。你只需要用光標高亮那段文字，然後隨口說一句：「把『這些』的分量翻倍。」

唰的一下，AI 直接在原地給你改寫了一份新菜譜。

第三，將像素轉化為可交互實體。

在計算機眼裡，屏幕只是幾百萬個發光的像素點。但 AI 光標能將死板的像素（Pixels）轉化為活的實體（Entities）。

比如，你正在看一段旅行 Vlog，視頻裡閃過一家看起來很棒的餐廳。你按下暫停，把光標指過去，原本死氣沉沉的視頻畫面瞬間變成了一個真實的、可交互的地點，旁邊直接彈出了這家餐廳的訂座鏈接。

再比如，你隨手拍了一張寫滿鬼畫符的便利貼，鼠標一指，墨跡直接變成了一個可以打勾的 To-Do List。發現了嗎？以前，是你去找 AI；現在，是 AI 順著你的鼠標，乖乖來到了你的指尖。

殺死 AI 提示詞，迴歸人類直覺

仔細想想，人類最強大的溝通工具其實是代詞。

當你和同事坐在屏幕前修改設計稿時，你絕對不會字正腔圓地說：「請將屏幕左上角座標 (X:120, Y:350) 處的藍色矩形向右移動 50 個像素。」你只會指著屏幕說：

「把這個，往右挪一點，弄淡一點。」

「那個餐廳看起來不錯，怎麼去？」

「這段代碼裡的這個報錯是什麼意思？」

在日常生活中，我們極度依賴「這個」和「那個」。手勢配合著極簡的口語，才是人類最高效的溝通密碼。究其原因，我們身處同一個物理空間，共享著同一套視覺上下文。

Google 敏銳地抓住了這一點，並將其提煉成了一條產品原則：擁抱「這」與「那」的力量（Embrace the power of This and That）。

與其強迫人類去學習複雜的提示詞框架，不如反其道而行之，把表達意圖的髒活累活從我們身上剝離出去，讓機器去適應人類最慵懶、最本能的「指手畫腳」。

好消息是，這套交互方式已經開始落地。Chrome 瀏覽器裡的 Gemini 從今天起率先支持；Google 全新推出的筆記本電腦產品線 Googlebook，則將「Magic Pointer」直接內置進了操作系統層面，覆蓋所有應用。

Googlebook 的野心不止於鼠標。Google 將這個產品線定義為「Android 手機的完美伴侶」。

類似蘋果的 iPhone 鏡像，用戶可將 Android 應用無縫投射到 Googlebook 桌面，以原生比例運行，並在文件管理器中跨設備自由穿梭，徹底打破手機、平板與筆記本的生態壁壘。此外，Gemini 還能依你所需，在桌面生成專屬動態 Widget（比如旅客的實時航班卡片）。

在硬件設計上，所有 Googlebook 機型都會在機身上集成一條「Glowbar」發光條，讓你一眼就能分辨出它與傳統 Chromebook 或 Windows 筆記本的區別。

首批 Googlebook 將由宏碁（Acer）、華碩（Asus）、戴爾（Dell）、惠普（HP）和聯想（Lenovo）製造，預計今年秋天上市。

有意思的是，三星缺席了這份名單。近期的消息顯示，三星可能正在籌備一款搭載 Google 新系統的 Galaxy 筆記本，其下一場 Unpacked 發佈會據傳定在 7 月 22 日。

至於底層的驅動核心，Google 雖未指名道姓，但通篇強化的「為智能而生的現代操作系統」以及 Android 與 ChromeOS 的深度融合，種種跡象均指向了傳聞已久的「Aluminum」系統。

這意味著，AI 開始成了操作系統級別的基礎設施。而當 AI 真正化身為你的鼠標光標，它便擁有了介入萬物的權限——所見即所得，所指即所控。

AI 人機交互，迎來十字路口

回望 1968 年，那個驚豔世界的初代鼠標，功能簡單得令人髮指：追蹤位置。這五十多年來，鼠標加了滾輪、加了側鍵、甚至加了風扇和配重塊，但它的靈魂依然是一張白紙：它準確地標記著座標，卻永遠無法理解座標背後的意義。

Google 的 AI 光標完成了交互史上罕見的進化：它不僅知道你在哪，更知道那是什麼。

過去一年，無數拿了融資的創業公司擠破頭，試圖造出下一個「AI 時代超級入口」。大家瘋狂地卷對話框的擬真度、卷 Agent 的複雜工作流。但 Google 這次用行動給全行業結結實實地上了一課：

最好的科技是什麼？是潤物細無聲。聊天框（Chatbox）從來都不是 AI 的最終形態，它只是一種過渡期的妥協。最好的 AI，應該退居幕後，成為一種附著在你日常動作上的基礎設施，而不僅僅是某個需要單獨打開的應用。

從黑底白字的命令行（CLI），到圖形界面的鼠標點擊（GUI），再到移動時代的觸屏滑動（NUI）。過去幾年，大語言模型讓我們短暫地倒退回了打字交流的時代，讓無數人患上了 Prompt 焦慮症。

但今天過後，我們知道了，那不過是黎明前的一段彎路。真正好用的 AI，終究要學會像人類一樣思考：看懂你的每一個眼神，聽懂你的每一句「把這個，放到那兒去」。

58 年前，當道格拉斯·恩格爾巴特握住那個簡陋的木製鼠標時，他的終極夢想是「增強人類的智慧」。

58 年後，當 AI 附身於這個古老的指針，機器終於開始真正「看懂」這個世界。屬於提示詞工程師的時代終將落幕，人機交互的終極閉環，也將在一句句含糊不清的「這個、那個」中，向前邁出歷史性的一大步。

附體驗地址：

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

本文來自微信公眾號“APPSO”，作者：發現明日產品的，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論