Khi mùa tốt nghiệp năm 2026 đang đến gần, việc phát hiện nội dung do AI tạo ra (AIGC) trong các trường đại học đã trở thành một thách thức mới đối với sinh viên sắp tốt nghiệp. Đại học Tứ Xuyên yêu cầu nội dung do AI tạo ra trong các bài luận thuộc lĩnh vực nhân văn không được vượt quá 20%, trong khi Đại học Sư phạm Quảng Tây và các trường khác giới hạn ở mức 40%. Việc phát hiện AIGC dựa trên hai khía cạnh: "độ phức tạp" và "tính đột ngột", nhưng do sự lặp lại nhanh chóng của các mô hình AI lớn, độ chính xác của nó rất đáng ngờ. CCTV đã thảo luận cụ thể về tính hợp lệ khoa học của công nghệ này, và thậm chí cả những tác phẩm văn học kinh điển như "Lời tựa cho Đình của Hoàng tử Teng" cũng đã bị đánh giá nhầm là 100% do AI tạo ra. Ngành công nghiệp hiện đang chuyển sang công nghệ thủy vân kỹ thuật số để giải quyết vấn đề tận gốc, nhưng giải pháp này có những hạn chế đáng kể trong lĩnh vực văn bản.
Tác giả và nguồn bài viết: Sanyi Life
Khi bạn hiểu được các nguyên tắc đằng sau việc phát hiện AIGC, bạn có thể tìm ra giải pháp phù hợp.
“Bên ngoài vọng lâu, dọc theo con đường cổ kính, cỏ thơm ngát trải dài đến tận chân trời. Ta hỏi ngươi, bao giờ ngươi sẽ trở về? Khi trở về, đừng ngần ngại.” Mùa tốt nghiệp lại đến gần, nhiều sinh viên tốt nghiệp năm 2026 có thể đối diện không chỉ với nỗi buồn chia ly, mà còn cả kỳ thi AIGC (Kỳ thi Chứng chỉ Tốt nghiệp Đại học) đầy bối rối. Năm nay, một chủ đề được bàn luận nhiều lần trong các nhóm chat của nhiều trường đại học: “Làm thế nào để vượt qua kỳ thi AIGC?”

Nếu phải chọn nhóm nào đang đón nhận AI nhiều nhất hiện nay, có lẽ không phải tầng lớp lao động đang lo lắng bị AI thay thế, mà là các sinh viên vẫn đang học đại học. Thậm chí còn có câu nói đùa rằng lớp học đại học không còn là cuộc thi xem ai học chăm chỉ hơn, mà là cuộc thi xem ai sử dụng các gợi ý của AI giỏi hơn.
Trong năm thứ tư kể từ khi cuộc cách mạng Trí tuệ nhân tạo tạo sinh (AIGC) bắt đầu, một số lượng lớn các trường đại học đã bắt đầu tích hợp việc phát hiện AIGC vào quy trình đánh giá luận văn tốt nghiệp, và đây không còn là vấn đề "có thể được kiểm tra" mà là "chắc chắn sẽ được kiểm tra".
Ví dụ, Đại học Tứ Xuyên yêu cầu chiếm tỷ lệ nội dung do AI tạo ra trong luận văn tốt nghiệp ngành nhân văn không vượt quá 20%, và trong các ngành khoa học, kỹ thuật và y học không vượt quá 15%; Đại học Sư phạm Quảng Tây và Đại học Hàng không và Vũ trụ Nam Kinh quy định tỷ lệ nội dung do AI tạo ra không được vượt quá 40%. Hơn nữa, đối với các luận văn không đạt yêu cầu, biện pháp xử phạt hiện tại đối với các trường đại học không phải là trả lại để sửa đổi, mà là hoãn bảo vệ luận văn.
Hiện nay, khi tìm kiếm "phát hiện AIGC" trên các nền tảng như Xiaohongshu, Weibo và Douyin, người ta thấy lượng lớn bài đăng từ những sinh viên mới tốt nghiệp phàn nàn về tỷ lệ AIGC cao của họ. Điều này cũng dẫn đến việc xuất hiện các quảng cáo về các phương pháp không chính thống để giảm tỷ lệ AIGC, các công cụ giúp hạ thấp tỷ lệ AIGC, và sự hoài nghi đối với việc phát hiện AIGC.

Một người dùng Xiaohongshu đã chia sẻ kinh nghiệm của mình: VIP AIGC phát hiện tỷ lệ AI trong bài viết của họ là 48%, và dù họ có chỉnh sửa thế nào đi nữa, kể cả sử dụng các công cụ trả phí, tỷ lệ AI cũng chỉ giảm vài phần trăm. Sau đó, họ chợt nảy ra một ý tưởng: không thay đổi một từ nào, họ chỉ thay thế tất cả dấu phẩy trong toàn bộ văn bản bằng dấu chấm bằng một thao tác tìm kiếm duy nhất, và tỷ lệ AI ngay lập tức giảm xuống còn 11,51%.
Hơn nữa, có người đã gửi bài luận kinh điển "Ao sen dưới ánh trăng" của Zhu Ziqing đến một công cụ phát hiện AIGC, và kết quả đáng ngạc nhiên là nó được đánh giá là có tới 62,88% do AI tạo ra. Không chỉ vậy, tác phẩm "Thổ Lang Thang" của Liu Cixin cũng được phát hiện có hơn 50% nội dung do AI tạo ra, trong khi kiệt tác vượt thời gian "Lời tựa cho Đình của Hoàng tử Teng" thậm chí còn được đánh dấu là 100% do AI tạo ra.
Sự hỗn loạn xung quanh việc phát hiện AIGC thậm chí đã khiến CCTV phải thảo luận về tính hợp lệ khoa học của công nghệ này. Vậy tại sao việc phát hiện AIGC lại hỗn loạn đến vậy, với mỗi kết quả dường như ngẫu nhiên? Trước khi trả lời câu hỏi này, chúng ta hãy xem xét các nguyên tắc của việc phát hiện AIGC. Hiện nay, các phương pháp phát hiện AIGC phổ biến trên thị trường về cơ bản dựa trên "độ phức tạp" và "độ bùng nổ" để đo lường khả năng dự đoán và sự thay đổi tần suất của các từ.

Trong thế giới nhận thức của con người, văn bản là phương tiện truyền tải ngữ nghĩa và logic, nhưng trong mắt các mô hình AI lớn, thế giới được thu gọn thành các token. Các mô hình AI lớn dựa trên kiến trúc Transformer về cơ bản tính toán phân bố xác suất của mỗi token có thể có trong ngữ cảnh và chọn token có xác suất cao nhất để tạo ra đầu ra. Quá trình này dựa trên dự đoán thống kê hơn là việc AI thực sự hiểu ý nghĩa của các từ liên quan.
Ví dụ, nếu AI nhận được văn bản "Tôi muốn ăn Yu Xiang Rou Si" (鱼香肉丝), nó sẽ giả định rằng từ tiếp theo bạn gõ là "thịt lợn xé sợi" (肉丝). Một số AI thông minh thậm chí còn cung cấp công thức nấu ăn Yu Xiang Rou Si kiểu nhà làm. Bởi vì AI chọn sử dụng từ có khả năng xảy ra cao nhất khi viết, bài viết sẽ có "mức độ nhầm lẫn" thấp trong mắt các AI được đào tạo đặc biệt cho các công cụ phát hiện AIGC.

Tính đột ngột đề cập đến tính quy luật về cấu trúc của một bài viết. Một bài viết có nhịp điệu quá hoàn hảo, logic quá đều đặn, và cách lựa chọn từ ngữ và cấu trúc câu quá chuẩn mực sẽ có tính đột ngột cao. Ví dụ, việc AIGC phát hiện tỷ lệ AI 100% cho bài "Lời tựa cho Đình của Thái tử Teng" không phải vì nó được ca ngợi là "văn xuôi song ngữ hay nhất mọi thời đại", mà vì các đặc điểm như vần điệu hài hòa và tính song song khiến bài viết quá hoàn hảo trong mắt AI.
Tóm lại, logic cơ bản của việc phát hiện AIGC là "đoán", tức là đoán xem bài viết của bạn giống với kết quả đầu ra của mô hình AI đến mức nào. Không phải là các nhà phát triển công nghệ phát hiện AIGC không nỗ lực, mà chính là sự cải tiến nhanh chóng của các mô hình AI đã khiến cụm từ "AI phát hiện AI" trở nên sáo rỗng.
Trên thực tế, ngành công nghiệp AI vẫn chưa tạo ra được một công cụ kiểm tra nội dung AI thực sự đáng tin cậy. Hiện nay, phương pháp phổ biến là công nghệ thủy vân kỹ thuật số AI, bao gồm việc thêm một thủy vân vô hình vào dữ liệu của hình ảnh và video được tạo ra bằng AI, nhằm giải quyết vấn đề từ gốc rễ. Để đạt được mục tiêu này, các công ty như Microsoft, Google, Adobe, OpenAI và Meta đã thành lập C2PA (Liên minh Nguồn và Tính xác thực Nội dung), và các công cụ AI như ChatGPT và Gemini đã tích hợp chứng chỉ nội dung C2PA.

Tuy nhiên, C2PA cũng có những hạn chế. Mặc dù rất hiệu quả trong lĩnh vực hình ảnh và video, nhưng nó lại có nhược điểm trong lĩnh vực văn bản vì văn bản rất dễ bị chỉnh sửa. Thực tế là không có công cụ phát hiện AIGC nào chính xác 100% trên thị trường. Những công cụ này thực chất chỉ đưa ra xác suất nội dung có phong cách AI, chứ không phải xác suất nội dung được tạo ra trực tiếp bởi AI.
Vấn đề là phần mềm phát hiện đạo văn AIGC không thể đưa ra đánh giá chính xác, và thực tế là các trường đại học yêu cầu bài luận phải vượt qua kiểm tra của AIGC. Vì vậy, không có gì lạ khi sinh viên sắp tốt nghiệp lo lắng. Vì các trường chỉ chấp nhận kết quả kiểm tra của AIGC, mọi người vẫn phải tìm cách giảm thiểu đạo văn, nhưng việc chi tiền cho các công cụ giảm đạo văn chuyên dụng bằng AI là không cần thiết.
Các công cụ loại bỏ trùng lặp dựa trên AI có trả phí, nhắm mục tiêu vào việc phá vỡ câu và thay thế từ, sẽ không còn hiệu quả trong việc chống lại phát hiện AIGC vào năm 2026. Chỉ cần thay đổi "important" thành "key" hoặc "therefore" thành "so" cũng sẽ bị phát hiện; chỉ có tái cấu trúc ngữ nghĩa mới hiệu quả. Đối với "sự đột ngột", việc xen kẽ giữa câu ngắn và câu dài có thể thay đổi nhịp điệu viết, và mật độ từ nối nên được giảm thiểu.

Đối với mức độ "gây nhầm lẫn" khó hơn, có một mẹo nhỏ: sử dụng nhiều góc nhìn người thứ nhất và những biểu hiện mang tính phê phán. Hiện nay, các mô hình AI lớn thường chiều lòng người dùng để cải thiện tỷ lệ giữ chân người dùng, vì vậy chúng có xu hướng đồng ý với người dùng hơn là sử dụng những biểu hiện mang tính phê phán.
Đồng thời, để đảm bảo tính khách quan của câu trả lời, hoặc ít nhất là tạo ấn tượng khách quan cho người dùng, AI sẽ không chủ động sử dụng góc nhìn người thứ nhất khi giao tiếp với người dùng, mà thay vào đó sẽ sử dụng góc nhìn người thứ ba khách quan hơn. Những đặc điểm này giúp giải quyết "mức độ nhầm lẫn".
[Hình ảnh trong bài viết này được lấy từ internet]





