Google Vision Banana: "Khoảnh khắc GPT-3" cho Thị giác máy tính? Mô hình xử lý ảnh thô vượt trội hơn các mô hình hiểu hình ảnh chuyên dụng.

Bài viết này được dịch máy
Xem bản gốc
Theo ME News, vào ngày 23 tháng 4 (UTC+8), theo dõi của Beating, đội ngũ nghiên cứu của Google (bao gồm các tác giả Kaiming He và Saining Xie) đã công bố một bài báo đề xuất Vision Banana. Mô hình này bao gồm việc tinh chỉnh hướng dẫn nhẹ nhàng cho mô hình tạo ảnh riêng của họ, Nano Banana Pro (Gemini 3 Pro Image), biến nó thành một mô hình hiểu biết hình ảnh đa năng. Phương pháp cốt lõi là tham số hóa đồng nhất đầu ra của tất cả nhiệm vụ hình ảnh dưới dạng ảnh RGB, cho phép nhiệm vụ nhận thức như phân đoạn, ước lượng độ sâu và ước lượng pháp tuyến bề mặt được hoàn thành thông qua việc tạo ảnh, loại bỏ nhu cầu về kiến ​​trúc chuyên dụng hoặc tổn thất huấn luyện cho từng loại nhiệm vụ . Các đánh giá bao gồm hai loại nhiệm vụ chính: phân đoạn ảnh và suy đoán hình học 3D. Trong phân đoạn, phân đoạn ngữ nghĩa (gán nhãn cho mỗi pixel trong ảnh với một danh mục, chẳng hạn như "mặt đường", "người đi bộ" và "phương tiện") vượt trội hơn mô hình phân đoạn chuyên dụng SAM 3 với 4,7 điểm phần trăm trên Cityscapes; Và phân đoạn biểu thức dựa trên chỉ mục (tìm và phân đoạn các đối tượng tương ứng dựa trên mô tả ngôn ngữ tự nhiên, chẳng hạn như "con chó đội mũ bên trái") cũng vượt trội hơn SAM 3 Agent. Tuy nhiên, nó vẫn tụt hậu so với SAM 3 trong phân đoạn đối tượng cụ thể (phân biệt các cá thể khác nhau cùng loại, chẳng hạn như gắn nhãn năm con chó trong một hình ảnh). Trong không gian 3D, ước tính độ sâu theo hệ mét (tính toán khoảng cách vật lý thực tế từ mỗi pixel đến camera từ một hình ảnh duy nhất) đạt độ chính xác trung bình là 0,929 trên bốn dữ liệu chuẩn, cao hơn so với 0,918 của mô hình chuyên dụng Depth Anything V3, và được huấn luyện hoàn toàn trên dữ liệu tổng hợp mà không sử dụng dữ liệu độ sâu thực, không yêu cầu tham số camera trong quá trình suy luận. Ước tính pháp tuyến bề mặt ( suy đoán hướng của bề mặt đối tượng) đạt được kết quả tốt nhất trên ba bộ dữ liệu chuẩn trong nhà. Việc tinh chỉnh chỉ đơn giản là trộn một lượng nhỏ dữ liệu nhiệm vụ hình ảnh vào dữ liệu huấn luyện tạo hình ảnh gốc, và khả năng tạo hình ảnh của mô hình vẫn không bị ảnh hưởng nhiều: nó tương đương với Nano Banana Pro gốc về đánh giá chất lượng tạo hình. Bài báo cho rằng nhân vật việc huấn luyện trước tạo ảnh trong lĩnh vực thị giác tương tự như nhân vật việc huấn luyện trước tạo văn bản trong lĩnh vực ngôn ngữ: mô hình đã học được các biểu diễn nội tại cần thiết để hiểu hình ảnh trong quá trình học cách tạo ra chúng, và việc tinh chỉnh chỉ đơn giản là giải phóng các biểu diễn này. (Nguồn: ME)

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận