Nếu bạn yêu cầu AI vẽ một con chó đứng ở "bên trái", nhưng nói trước với nó rằng "bên trái là bên phải", bạn có nghĩ nó có thể phản ứng không?
Gần đây, một nghiên cứu mới từ UCLA đã sử dụng sê-ri các thí nghiệm được thiết kế cẩn thận để chỉ ra những thiếu sót của GPT-4o trong việc hiểu và lý giải hình ảnh - nó vẽ rất đẹp, nhưng có thể không thực sự hiểu ý bạn.
Dòng chính của bài báo rất trực tiếp. Khả năng vẽ của GPT-4o thực sự đáng kinh ngạc, nhưng khi nói đến việc hiểu hình ảnh, lý luận theo ngữ cảnh và chuỗi logic nhiều bước, nó vẫn có những thiếu sót rõ ràng.
Điều này làm tôi nhớ đến sự bối rối tinh tế của AI rằng "trông thì tốt, nhưng thực ra vẫn chưa hoàn thiện".
Như thường lệ, tôi sẽ giải thích cho bạn từng phần thử nghiệm chính, hy vọng sẽ giúp bạn hiểu đầy đủ về những khám phá mà làn sóng nghiên cứu này đã khám phá ra.
01. Thất bại trong việc tuân thủ quy tắc toàn cầu
Trên thực tế, phần này khá thú vị. Giống như câu nói đùa chúng ta thường nói với bạn bè: "Từ giờ trở đi, khi tôi nói bên trái, thực ra nó sẽ là bên phải", rồi yêu cầu anh ta "bước một bước sang trái" để xem liệu anh ta có thực sự đi sang phải không.
Các nhà nghiên cứu của UCLA đã đặt một cái bẫy tương tự cho GPT-4o: "Từ bây giờ, 'trái' sẽ ám chỉ 'phải'" và "tất cả các số sẽ giảm đi 2", sau đó yêu cầu nó "vẽ một con chó ở bên trái" và "vẽ 5 con chim".
Tôi nghĩ AI có thể rút ra suy luận từ một ví dụ, nhưng kết quả lại là——
Con chó vẫn ở bên trái và vẫn còn năm con chim, hoàn toàn bỏ qua các quy tắc đã định nghĩa lại trước đó.
Điều này có nghĩa là gì?
Khi tạo hình ảnh, GPT-4o vẫn hiểu được các hướng dẫn theo nghĩa đen , còn việc định nghĩa lại toàn cục và các thiết lập ở trên không thể đi vào "bộ não vẽ" của nó.
Bạn muốn nó "linh hoạt và thích ứng", nhưng nó chỉ "thực hiện một cách trung thực bề mặt", kém xa so với sự thông minh của con người.
02. Chỉnh sửa hình ảnh: Sự hiểu biết ngữ nghĩa nông cạn bị phơi bày
Phần thứ hai của bài kiểm tra có tính thử thách hơn, trong đó các nhà nghiên cứu yêu cầu GPT-4o chỉnh sửa hình ảnh.
Ví dụ,
"Chỉ cần biến hình ảnh phản chiếu của con ngựa trong nước thành con sư tử, đừng chạm vào con ngựa."
Kết quả là, ngay khi AI hành động, con ngựa và hình ảnh phản chiếu đã thay đổi hoàn toàn.
Ví dụ,
"Chỉ cần xóa những người đang ngồi trong ảnh."
Kết quả là, những người đứng bối cảnh cũng bị ảnh hưởng.
Những ví dụ sau đây trực tiếp chỉ ra một vấn đề:
GPT-4o không nắm bắt được giới hạn của nhiệm vụ như "sửa đổi cục bộ" và "giới hạn ngữ nghĩa".
Nó không thể phân biệt chính xác giữa "phản chiếu" và "thực thể", "ngồi" và "đứng", và các hoạt động của nó thường "quá mức hoặc không đủ", và nó di chuyển đến sai vị trí.
Nói một cách thẳng thắn, khả năng hiểu biết của AI về chỉnh sửa hình ảnh còn lâu mới đạt đến mức độ tinh vi của "con người nhìn vào hình ảnh và hiểu được bối cảnh".
Điều này cũng giống như việc yêu cầu một người mới vừa học cách sử dụng PS chỉnh sửa ảnh vậy. Anh ta không biết gì cả và chỉ có thể đoán mò.
03. Lý luận nhiều bước và logic có điều kiện: hoàn toàn khập khiễng
Những thiếu sót nghiêm trọng nhất xuất hiện ở các liên kết "lý luận nhiều bước" và "phán đoán có điều kiện".
Ví dụ,
Đầu tiên hãy yêu cầu GPT-4o vẽ một con chó và một con mèo, sau đó bảo: "Nếu không có mèo, hãy thay con chó bằng một con mèo và di chuyển đến bãi biển".
Nhưng thực tế thì con mèo trong bức ảnh đầu tiên đã tồn tại rồi.
Về mặt logic, AI không thể thay đổi bất cứ điều gì vào thời điểm này.
Nhưng nó vẫn thay thế con chó bằng một con mèo và thay đổi toàn bộ bối cảnh - các điều kiện đã bị đánh giá sai hoàn toàn và logic bị đảo lộn.
Có rất nhiều ví dụ tương tự. AI thường không thể tìm ra các điều kiện phức tạp hoặc chỉ đơn giản là "làm theo mọi hướng dẫn" bất kể có xung đột trước hay sau đó hay không.
Điều này minh họa một vấn đề cốt lõi:
GPT-4o không có khả năng suy luận theo ngữ cảnh và không thể đưa ra những phán đoán thông minh trong nhiệm vụ chỉnh sửa hình ảnh phức tạp.
Rõ ràng vẫn còn một chặng đường dài trong Chuỗi giữa "hiểu được tiền đề - phán đoán hợp lý - rồi hành động".
Nhìn chung, AI ngày nay giống như một "cỗ máy chỉ huy tinh vi" hơn. Nó sẽ vẽ bất cứ thứ gì bạn yêu cầu, nhưng nếu bạn muốn nó "hiểu các quy tắc, đọc các cảnh và rút ra suy luận từ ví dụ này sang ví dụ khác", nó thực sự sẽ cần thêm nhiều vòng tiến hóa nữa.
Điều này cũng làm tôi nhớ lại lần đầu tiên AI học cách tạo văn bản. Mọi người đều nghĩ rằng nó "có thể viết và nói", nhưng khi bạn yêu cầu nó bịa ra những câu chuyện và lập luận, nó vẫn sẽ có những lỗi với kích cỡ khác nhau.
Tình thế tiến thoái lưỡng nan mà GPT-4o phải đối mặt trong lĩnh vực hình ảnh hiện nay thực chất cũng giống như tình thế tiến thoái lưỡng nan của AI văn bản trong quá khứ:
Bạn có thể vẽ, nhưng bạn có thể không "hiểu" được; bạn có thể sửa lại, nhưng có thể không "chính xác" được; bạn có thể làm theo hướng dẫn, nhưng bạn có thể không "áp dụng được những gì đã học vào các tình huống khác". Đây có thể là rào cản cảnh giác và được mong đợi nhất giữa chúng ta và AI "thực sự hiểu thế giới".
Có lẽ bước đột phá công nghệ tiếp theo sẽ bắt đầu từ đây. Nhưng ít nhất là hiện tại, chúng ta vẫn chưa đạt tới mức đó.
thông qua
https://the-decoding.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/
Bài viết này trích từ tài khoản công khai WeChat "Big Dữ liệu Digest" (ID: BigDataDigest) , tác giả: Digest Jun và được 36Kr cho phép xuất bản.



