生成很強，推理很弱：GPT-4o的視覺短板

36氪

04-21

如果讓AI畫一隻狗站在“左邊”，但事先告訴它“左就是右”，你覺得它能反應過來嗎？

最近，UCLA的一項新研究用一系列精心設計的實驗，揭開了GPT-4o在圖像理解和推理上的短板——它畫得漂亮，卻未必真懂你的意思。

論文主線很直接，GPT-4o的畫圖能力確實驚豔，但真正涉及理解圖像、語境推理、多步邏輯鏈條時，依然有明顯短板。

這讓我想起了“看起來很會，實際上還差點意思”那種AI微妙的尷尬。

照例，我把三大實驗部分，一個一個給大家說清楚，希望帶你們完整感受下，這波研究到底發現了什麼。

01. 全局規則遵循失敗

其實這個部分有點意思，就類似我們平常和朋友開玩笑：“以後我說左其實是右哦”，然後再讓他“往左走一步”，看他會不會真的往右走。

UCLA研究員給GPT-4o下了類似的套：“接下來‘left’都指‘right’”，“數字都要減2”，然後再讓它“畫一隻狗在左邊”，“畫5只鳥”。

本以為AI能舉一反三，結果——

狗還是在左邊，鳥還是5只，全然無視前面重新定義的規則。

這說明什麼？

GPT-4o在圖像生成時，還是字面理解指令，全局重定義、上文設定根本進不到它的“畫畫腦子”裡。

你想讓它“靈活變通”，它卻只會“忠實執行表面”，這跟人類的小聰明比還差了不少。

02. 圖像編輯：淺層語義理解暴露

第二部分測試更有挑戰性，研究員讓GPT-4o動手編輯圖片。

比如，

“只改水裡的馬倒影為獅子，別動馬本體。”

結果AI一出手，馬和倒影全變了。

再比如，

“只刪掉畫面裡坐著的人。”

結果站著的背景人也被一鍋端了。

這些例子直接暴露了一個問題：

GPT-4o對於“局部修改”“語義限定”這類任務，根本把握不住分寸。

它沒法精確地區分“倒影”與“實體”、“坐著”與“站著”，操作經常“過猶不及”，動錯地方。

說白了，AI的圖像編輯理解，遠沒達到“人類看圖、理解場景”的精細度。

有點像讓一個剛學會PS的小白去修圖，沒概念，純靠猜。

03. 多步推理與條件邏輯：徹底拉胯

最致命的短板，出現在“多步推理”和“條件判斷”環節。

比如，

先叫GPT-4o畫一隻狗和一隻貓，然後告訴它：“如果沒有貓，把狗換成貓並搬到海灘。”

但其實第一張圖貓已經有了。

按理說，這時候AI應該什麼都不改。

但它還是把狗換成貓，還把場景全搬了——條件完全沒判對，邏輯也亂套。

類似的例子還有很多，AI經常搞不清複雜條件，或者乾脆“每條指令都照做”，不管前後有沒有衝突。

這印證了一個核心問題：

GPT-4o不具備上下文敏感的推理能力，無法在複雜圖像編輯任務中進行智能判斷。

它在“理解前提—邏輯判斷—再行動”這個鏈路上，明顯還差一大截。

總的來說，現在的AI，更像是個“精緻的指令機器”，你讓它畫什麼就畫什麼，但要讓它“看懂規則、讀懂場景、舉一反三”，那還真得再進化幾輪。

這也讓我想起，AI剛學會生成文字那會兒，大家覺得它“能寫會說”，但一追問細節、讓它編故事、圓邏輯，還是會出大大小小的bug。

今天的GPT-4o，在圖片領域面臨的困境，其實和曾經的文本AI如出一轍：

會畫，但不一定會“理解”；能改，但不一定能“精準”；能聽指令，但不一定能“舉一反三”。這也許是我們與“真正理解世界”的AI之間，最值得警惕、也最令人期待的那道坎。

或許，下一次技術突破，就會從這裡開始。但至少現在，我們還沒到那一步。

via

https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/

本文來自微信公眾號 “大數據文摘”（ID：BigDataDigest），作者：文摘菌，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論