ICCV 20,25 triệu bài nộp đã phá vỡ kỷ lục, các tác giả bị toàn thể nhân viên buộc phải xem xét, cư dân mạng chỉ trích là không tốt bằng GPT

avatar
36kr
05-12
Bài viết này được dịch máy
Xem bản gốc

Số lượng bài báo nộp cho ICCV 2025 năm nay đã đạt tới con số đáng kinh ngạc là 11.152, lập nên kỷ lục lịch sử mới. Sau khi kết quả đánh giá được công bố, một số người đã đăng bảng điểm cao của mình, trong khi những người khác lại bày tỏ sự thất vọng với ý kiến ​​đánh giá. Đối diện số lượng lớn bài nộp như vậy, hội nghị đảm bảo chất lượng đánh giá như thế nào?

Kết quả đánh giá ICCV 2025 đã được công bố!

Số lượng bài báo nộp cho ICCV lần này đã đạt Cao nhất mọi thời đại (ATH). Theo thông báo chính thức của hội nghị, năm nay chúng tôi đã nhận được tổng cộng 11.152 bài dự thi hợp lệ, vượt xa quy mô của những năm trước.

ICCV 2023 đã nhận được tổng cộng 8088 bài dự thi

Tính đến thời hạn đánh giá, 11.152 bài báo hợp lệ đã nộp đã nhận được ít nhất 3 ý kiến ​​đánh giá.

Tác giả có thể gửi phản bác trước 23:59 (giờ Hawaii) ngày 16 tháng 5 và ICCV 2025 sẽ công bố quyết định chấp nhận cuối cùng vào ngày 25 tháng 6.

Dựa trên dữ liệu do Paper Copilot công bố, đường cong chấm điểm bài báo hiện đã được công khai.

Ý nghĩa của các xếp hạng như sau:

1: Từ chối

2: Sự từ chối yếu

3: Từ chối cạnh

4: Sự chấp nhận biên độ

5: Sự chấp nhận yếu

6: Chấp nhận

Cho đến nay, khoảng 36% đạt điểm trên 3,67 và chỉ có 4% đạt điểm trên 4,0. Điểm từ 3,67 đến 4,0 cho bạn khoảng 50%-70% cơ hội được chấp nhận.

Là một trong ba hội nghị hàng đầu về thị giác máy tính, ICCV được tổ chức hai năm một lần. Năm nay sự kiện này sẽ được tổ chức tại Honolulu, Hawaii từ ngày 19 đến ngày 23 tháng 10.

Hiện tại, đã có nhiều người chia sẻ kết quả đánh giá của mình.

Kết quả đánh giá đã bị toàn bộ mạng lưới chỉ trích

Vì thời điểm công bố ý kiến ​​đánh giá có phần "kỳ lạ" nên hiện tại vẫn chưa có nhiều cuộc thảo luận.

Cư dân mạng cho biết hầu hết các bình luận họ thấy đều là tiêu cực, công kích và chỉ trích.

Cư dân mạng phàn nàn: Đây có phải là bài đánh giá mà con người có thể viết không?

“Tôi thậm chí không nói nó được viết bởi GPT, bởi vì GPT có nhiều não hơn người này. Điều này chỉ có thể được gọi là giống người.”

Tóm lại là như sau:

Bài báo này đề xuất một phương pháp cải thiện "khả năng hiểu" của mô hình bằng cách kết hợp mô hình ngôn ngữ trực quan với tìm kiếm trong giai đoạn suy luận, phương pháp cơ bản là phương pháp tạo ra tăng cường truy xuất (RAG). Phương pháp này bao gồm việc dự đoán “giá trị của nội dung tiếp theo” trước khi tạo nội dung và tuyên bố có thể giảm ảo giác của mô hình. Tôi đã cố gắng tìm định nghĩa của những thuật ngữ được trích dẫn này trong bài báo. Nếu bài báo có mục đích cải thiện "sự hiểu biết" về mô hình, thì phải có một tiêu chuẩn đo lường chính xác và khách quan, và điều tương tự cũng đúng đối với hiện tượng "ảo giác". Tuy nhiên, tôi không tìm thấy định nghĩa rõ ràng cho các thuật ngữ này, điều này dẫn đến thực tế là định nghĩa về mục tiêu "cải thiện sự hiểu biết" thực sự phụ thuộc vào phương pháp được sử dụng để đo lường nó, cụ thể là chuẩn mực được sử dụng trong Mục 4.2. Do đó, tôi chỉ có thể cho rằng rằng bài báo thực hiện tốt nhiệm vụ được xác định bởi một bộ chuẩn mực cụ thể và hiệu suất tốt này cũng được đo bằng các chuẩn mực tương tự. Trong thời gian đánh giá có hạn, tôi không thể xác định liệu phương pháp này có hợp lý về mặt khái niệm hay không. Tôi muốn thấy định nghĩa rõ ràng về các thuật ngữ này, chỉ báo được sử dụng để đo lường chúng và các nguyên tắc để tối ưu hóa chỉ báo này, đặc biệt là cách phương pháp được đề xuất trong bài báo đạt được những tối ưu hóa này. Khi xem xét nhiều yếu tố ảnh hưởng đến hiệu suất thực nghiệm trong lĩnh vực này, tôi thấy khó có thể đánh giá giá trị học thuật của nó chỉ dựa trên kết quả thực nghiệm.

Pinar nói, "Xin chân thành cảm ơn các nhà đánh giá của ICCV vì đã làm việc chăm chỉ. Tôi e là bạn chỉ sao chép và dán kết quả của ChatGPT!" Những lời vô nghĩa trôi chảy này, cùng với sự mơ hồ lượng tử, vừa chấp nhận vừa bác bỏ, chỉ đơn giản là bài đánh giá của Schrödinger. "

Akshit cho rằng, “Thật buồn cười khi những người được gọi là chuyên gia lĩnh vực này lại hiểu sai các khái niệm. Tôi được yêu cầu giải thích một điều gì đó không tồn tại hoặc đã có trong tài liệu bổ sung.”

Những cư dân mạng khác tỏ ra thất vọng vì không có người đánh giá nào đọc tài liệu bổ sung.

Một số người cũng phàn nàn rằng có nhiều người đánh giá kém năng lực hơn CVPR.

Tuy nhiên, cũng có những bình luận tích cực từ cư dân mạng - họ ngạc nhiên trước sự cải thiện về chất lượng đánh giá của ICCV và chính sách mới thực sự có hiệu quả.

Một số cư dân mạng cũng đăng tải bảng báo cáo về Versailles của họ.

Số lượng hồ sơ nộp lên ICCV tăng trưởng dần từ khoảng 4.300 hồ sơ vào năm 2019 lên hơn 6.000 hồ sơ vào năm 2021 và tăng vọt lên hơn 8.000 hồ sơ vào năm 2023.

Tỷ lệ chấp nhận bài viết dao động trong khoảng 25% đến 26%. Rất ít bài báo được chọn làm báo cáo hội nghị và hầu hết kết quả đều được truyền đạt dưới dạng áp phích.

Yêu cầu của ICCV đối với người đánh giá

ICCV thường mời các học giả đã công bố kết quả trên các hội nghị hàng đầu (CVPR/ICCV/ECCV) hoặc các tạp chí liên quan trong những năm gần đây để làm người đánh giá.

Hội nghị đã mời 6 chủ tịch hội nghị (PC), 500 chủ tịch khu vực (AC) và khoảng 8.000 người đánh giá tham gia đánh giá.

Có quá xa vời khi yêu cầu tất cả nhân viên cùng tham gia đánh giá không?

Mỗi tác giả của bài báo được nộp đều được yêu cầu làm người đánh giá.

Cách đây một thời gian, nhà nghiên cứu Google DeepMind Liu Ruoxi đã phàn nàn về hệ thống ICCV 2025 nơi mọi người đều tham gia vào quá trình đánh giá.

Bà cho biết, "Tôi hiểu tình hình thiếu hụt người đánh giá hiện nay, nhưng yêu cầu bắt buộc là "tác giả phải tham gia đánh giá" và bất kỳ cá nhân nào không hoàn thành việc đánh giá trong thời hạn sẽ khiến tất cả bài viết của họ bị từ chối trực tiếp là thực sự vô lý."

"Bạn hoàn toàn không nghĩ rằng tác giả cũng là con người, và ai cũng có những vấn đề và vấn đề cấp bách."

Michael Black, giám đốc Viện Max Planck, hoàn toàn đồng ý và cho biết các yêu cầu sẽ được sửa đổi để bất kỳ tác giả nào đã công bố hơn ba bài báo trên CVPR/ICCV/ECCV đều phải tham gia đánh giá.

Có những tác giả lo lắng bài báo của mình sẽ bị từ chối vì họ đã trễ thời hạn đánh giá.

ICCV chính thức công bố kết quả cuối cùng, 97,18% bài đánh giá được nộp đúng hạn và chỉ có 95 người đánh giá nộp trễ hạn.

Vô hiệu hóa Đánh giá LLM

Ngoài ra, ICCV 2025 nghiêm cấm sử dụng các mô hình lớn (như ChatGPT) trong quá trình đánh giá để đảm bảo tính nguyên bản và xác thực của các bình luận đánh giá.

Người đánh giá phải cung cấp những nhận xét trung thực để chịu trách nhiệm trước tác giả của bài báo và trước chatbot trực tuyến, nơi thu thập lịch sử trò chuyện để cải thiện mô hình của mình.

Do đó, việc sử dụng chúng trong quá trình đánh giá sẽ vi phạm chính sách bảo mật của ICCV.

Alex từ Đại học California, San Diego cho biết anh cảm thấy rất tệ sau khi hoàn thành bài đánh giá cho ICCV năm nay.

Phần bình luận cũng bày tỏ rằng thật tệ và chất lượng chung của các bài báo đang giảm sút.

Các quy định đánh giá tiếp tục duy trì các tiêu chuẩn cao trước đó, thực thi nghiêm ngặt thời hạn đánh giá và đảm bảo rằng mỗi bài báo nhận được ít nhất ba ý kiến ​​đánh giá.

Bất kỳ người đánh giá nào không nộp bài đánh giá của mình đúng thời hạn sẽ bị từ chối bài viết.

Theo số liệu thống kê chính thức, 97,18% ý kiến ​​đánh giá được nộp đúng hạn và chỉ có 95 người đánh giá trễ hạn, dẫn đến 112 bài báo có khả năng bị ảnh hưởng.

ICCV khuyên người đánh giá nên tìm ra những điểm sáng trong các bài báo và khuyến khích làm việc có tính đổi mới hoặc đưa ra giả thuyết táo bạo.

Nếu một bài báo đưa ra ý tưởng mới, nó không nên bị từ chối chỉ vì lý do đó ngay cả khi nó không vượt quá hiệu suất SOTA trên một dữ liệu chuẩn.

Kosta Derpanis, phó giáo sư khoa học máy tính tại Đại học York, đã chuyển tiếp lời khuyên của một cư dân mạng để động viên tất cả các nhà nghiên cứu nhận được kết quả không như mong đợi:

Đối với một số người, kết quả đánh giá của ICCV không phải là điều bạn mong muốn. Đây là chuẩn mực trong xuất bản học thuật - tận hưởng niềm vui thành công thỉnh thoảng nhưng cũng phải đối mặt với những thất vọng thường gặp. Đó là luật chơi.

Bạn cũng có thể tận dụng cơ hội này để điều chỉnh lại và xem xét cẩn thận các phản hồi hợp lệ trong phần bình luận đánh giá, vì những đề xuất có giá trị thường ẩn chứa trong đó. Đôi khi bạn cần phải đào sâu hơn, nhưng những hiểu biết sâu sắc này thực sự có thể giúp cải thiện nghiên cứu và ý tưởng nghiên cứu tổng thể của bạn.

Chúc những ai vẫn còn cơ hội may mắn! Tôi đã thấy rất nhiều bài báo đạt được sự thay đổi trong giai đoạn phản bác.

Đánh giá ngang hàng: vinh quang và sự phi lý

Để phản hồi lại kết quả đánh giá của ICCV, Andreas Maier, một nhà khoa học từ Phòng thí nghiệm nhận dạng mẫu, đã xuất bản một bài viết dài giải thích về tình trạng hiện tại của đánh giá ngang hàng.

Đánh giá: Phê bình ngắn gọn, nhưng quá ngắn gọn

Một người đánh giá đã nhận được một bài báo về kỹ thuật giảm độ phức tạp tính toán của quá trình tạo hình ảnh y tế bằng cách phân tích các phép toán tích chập chiều cao thành các phép toán chiều thấp.

Đây là một ý tưởng thú vị và mặc dù không hoàn toàn mới nhưng có vẻ như có tiềm năng về mặt kỹ thuật.

Sau khi đọc kỹ, người đánh giá tập trung vào phần đánh giá của bài báo và đưa ra đánh giá của mình:

Bài báo chỉ được thử nghiệm trên một phương thức duy nhất, ít được biết đến và thiếu sự xác thực trên dữ liệu công khai (người đánh giá đã vui lòng liệt kê các đề xuất dữ liệu có sẵn); báo cáo về cải thiện hiệu suất thiếu các kiểm tra độ tin cậy; chưa kể đến cách trình bày so sánh trực quan gây nhầm lẫn, thậm chí không sử dụng đơn vị Hounsfield tiêu chuẩn để chụp CT.

Tóm lại: ý tưởng tốt, đánh giá tệ. Do đó, người đánh giá đã đưa ra đánh giá " Borderline Reject".

Đánh giá của ông ngắn gọn nhưng chính xác: ông tóm tắt các khái niệm cốt lõi, khẳng định điểm mạnh và chỉ ra các vấn đề cụ thể về việc lựa chọn dữ liệu, thiếu khái quát và trình bày hình ảnh.

Đánh giá như vậy là chuyên nghiệp, đúng trọng tâm và đúng vấn đề.

Tuy nhiên, ông không bao giờ ngờ rằng bài đánh giá ngắn gọn này lại trở thành ngòi nổ cho "âm mưu" tiếp theo.

Chủ tịch miền "Tấn công mẫu"

Vài tuần sau, người đánh giá nhận được phản hồi từ AC.

Tôi mong đợi một cuộc thảo luận mang tính kỹ thuật, nhưng thực tế lại giống như một vở hài kịch đen:

AC cáo buộc người đánh giá "thiếu đủ thông tin chi tiết" trong bình luận của họ và thậm chí còn trích dẫn những câu không có trong bài đánh giá!

Phản hồi này có vẻ như được sao chép và dán trực tiếp từ "Sổ tay hướng dẫn mẫu phản hồi thụ động-hung hăng của ICCV™". Nó quá máy móc đến nỗi khiến mọi người nghi ngờ liệu AC có thực sự đọc bài đánh giá hay không.

Người đánh giá đã bị sốc và trả lời một cách lịch sự nhưng gay gắt, chỉ ra rằng bài đánh giá của ông dựa trên các tiêu chuẩn thực tế và "văn bản gốc" mà ông trích dẫn là hư cấu, đồng thời hỏi AC liệu ông có thể giải thích cụ thể vấn đề nằm ở đâu không.

Cảnh này có thể được gọi là "Bộ quần áo mới của Hoàng đế" trong giới học thuật - phản hồi theo khuôn mẫu không những không giúp cải thiện mà còn phơi bày các vấn đề quan liêu trong quá trình đánh giá.

Chủ tịch chương trình Phản hồi nhanh

Người đánh giá không để trò hề này kéo dài vô tận. Ông nâng cấp vấn đề này lên người chủ trì chương trình và trình bày sự việc một cách ngắn gọn.

May mắn thay, chủ tịch chương trình đã phản hồi nhanh chóng.

Trong vòng chưa đầy hai giờ, các cuộc thảo luận ngoại tuyến đã bắt đầu; Tối hôm đó, AC đã đích thân trả lời người đánh giá và vấn đề đã được giải quyết nhanh chóng.

Một cuộc tranh luận học thuật có thể kéo dài trong nhiều tuần đã kết thúc chỉ trong một ngày.

Kịch đánh giá ngang hàng

Mặc dù sự cố này nhỏ, nhưng nó phản ánh những vấn đề sâu xa của hoạt động bình duyệt ngang hàng trên quy mô lớn.

Tại các hội nghị hàng đầu như ICCV, những người đánh giá, đặc biệt là các học giả cao cấp, thường phải xử lý hàng chục bài báo cùng một lúc và thời gian của họ rất eo hẹp.

AC phải điều phối hàng trăm bài báo, bài đánh giá và phản biện, và có thể được gọi là "quản lý dự án học thuật".

Trong hoàn cảnh áp lực cao này, các cuộc trò chuyện giữa mọi người dần được thay thế bằng các mẫu, hộp kiểm và trả lời tự động.

Kết quả thế nào?

Tiêu chuẩn chất lượng đánh giá bắt đầu chuyển sang chỉ báo"dễ định lượng": số lượng từ, định dạng và biểu mẫu có được điền đầy đủ hay không.

Một bài thảo luận chung dài hai trang có thể được chấp nhận, trong khi một bài viết ngắn gọn, đúng trọng tâm có thể bị dán nhãn là "thiếu chi tiết".

Các AC quá bận rộn đến nỗi họ chỉ có thể sao chép và dán phản hồi và thậm chí còn quá lười để đọc bài đánh giá gốc. Phản ứng quan liêu này làm mất đi bản chất của việc bình duyệt ngang hàng.

Sự kiện ICCV 2025 nhắc nhở chúng ta:

Chất lượng của bài đánh giá không nằm ở độ dài mà ở nội dung sâu sắc của nó; ý nghĩa của bài đánh giá không nằm ở hình thức mà ở nội dung đối thoại.

Tham khảo:

https://x.com/papercopilot/status/1920964042123858217

https://iccv.thecvf.com/Conferences/2025/ReviewerGuidelines

https://www.reddit.com/r/MachineLearning/comments/1kgemvp/d_iccv_2025_review_and_score_discussion_thread/

https://papercopilot.com/statistics/iccv-statistics/

https://akmaier.substack.com/p/iccv-reviews-2025-where-scripts-dont?r=56pbmv&utm_campaign=post&utm_medium=web&triedRedirect=true

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: YHs và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận