Các bài kiểm tra Turing đảo ngược và sai lệch: GPT-4 mang tính “con người” hơn con người

avatar
36kr
09-09
Bài viết này được dịch máy
Xem bản gốc

Các nhà nghiên cứu từ Đại học California đã khám phá khả năng của con người và AI trong việc phân biệt giữa những người đối thoại khi họ là con người hay AI, bằng cách sử dụng các bài kiểm tra Turing đảo ngược và hoán vị. Nhưng hóa ra nếu không có sự tương tác tích cực, cả con người lẫn các mô hình ngôn ngữ quy mô lớn hiện nay đều không gặp khó khăn trong việc phân biệt hai ngôn ngữ này.

Nội dung do AI tạo ra dần dần tràn ngập Internet.

Thay vì trò chuyện trực tiếp với AI, mọi người ngày nay có xu hướng đọc và duyệt văn bản do AI tạo ra nhiều hơn.

Bài kiểm tra Turing cổ điển mang lại cho ban giám khảo một lợi thế chính: họ có thể điều chỉnh các câu hỏi trong thời gian thực để kiểm tra những người tham gia với nhau.

Nhưng điều này không phải lúc nào cũng tồn tại khi tiêu thụ văn bản do AI tạo ra một cách thụ động.

Do đó, các nhà nghiên cứu từ Đại học California, San Diego đề xuất rằng chúng ta cần tiến hành một biến thể của Turing Test trong hoàn cảnh gần với thực tế hơn để xác định xem con người có thể phân biệt tốt như thế nào giữa con người và AI trong các tình huống thực tế.

Địa chỉ giấy: https://arxiv.org/pdf/2407.08853

Và làm rõ thêm các vấn đề sau:

Liệu con người có thể phân biệt được sự khác biệt giữa con người và AI chỉ bằng cách quan sát các cuộc trò chuyện một cách đáng tin cậy không?

LLM có thể được sử dụng làm công cụ phát hiện AI không chỉ cho văn bản tĩnh (chẳng hạn như bài viết và đoạn văn) mà còn cho hội thoại động không?

Bài kiểm tra Turing sai lệch có cải thiện hay giảm độ chính xác không?

Bài kiểm tra Turing ngược có thể tiết lộ tâm lý ngây thơ trong các hệ thống nhân tạo không?

Và phương pháp nào là tốt nhất để phát hiện AI trong hoàn cảnh đàm thoại trong thế giới thực?

Nghiên cứu này sẽ đo lường hiệu suất của con người và các mô hình ngôn ngữ lớn trong bài kiểm tra này thông qua hai biến thể của bài kiểm tra Turing - "bài kiểm tra Turing đảo ngược" và "bài kiểm tra Turing dịch chuyển".

Trong đó, GPT-3.5, GPT-4 và con người với tư cách là giám khảo sẽ xác định xem người tham gia là con người hay AI dựa trên bản ghi cuộc hội thoại của bài kiểm tra Turing.

Phép thử Turing cổ điển và sê-ri biến thể của nó

Bài kiểm tra Turing cổ điển

Trong bài kiểm tra Turing cổ điển, một thẩm phán là con người tham gia vào một cuộc trò chuyện chỉ bằng văn bản với hai người tham gia, trong đó người và một người là máy.

Nếu thẩm phán không thể phân biệt chính xác giữa con người và máy tính thì máy tính đã vượt qua bài kiểm tra và có thể được coi là một tác nhân.

Kể từ khi bài báo gốc của Turing được xuất bản, Bài kiểm tra Turing đã gây ra cuộc tranh luận gay gắt và đóng một vai trò quan trọng trong việc hiểu và xây dựng các khái niệm hiện đại về trí thông minh.

Nhưng mặt khác, tính giá trị hoặc tính đầy đủ của nó trong vai trò một bài kiểm tra trí thông minh đã bị nghi ngờ rộng rãi.

Bất kể tính hiệu quả của nó như một bài kiểm tra trí thông minh, bài kiểm tra Turing vẫn là một phương tiện quan trọng để đánh giá sự giống nhau giữa chữ viết của con người và AI, đồng thời cũng là một công cụ mạnh mẽ để nghiên cứu sự lừa dối của AI.

Đã có nhiều nỗ lực vượt qua Bài kiểm tra Turing trong nhiều năm, bao gồm cả cuộc thi Giải thưởng Loebner từ năm 1990 đến năm 2020, nhưng không có hệ thống nào vượt qua được bài kiểm tra.

"HumanorNot" là một thử nghiệm thử nghiệm Turing xã hội quy mô lớn cho thấy tỷ lệ chính xác của ban giám khảo là 60%; một nghiên cứu năm 2024 báo cáo rằng tỷ lệ đậu đầu tiên không khác biệt về mặt thống kê so với mức ngẫu nhiên (54%) nhưng vẫn nằm dưới Hệ thống con người. tiêu chuẩn (67%).

Có nhiều biến thể của Bài kiểm tra Turing, mỗi biến thể đưa ra một góc nhìn khác nhau về lý thuyết và thực hành.

Kiểm tra Turing đảo ngược

Bài kiểm tra Turing ngược cho phép hệ thống AI nhân vật là giám khảo.

Năm 1996, Watt đề xuất backtesting như một phương pháp"tâm lý ngây thơ", xu hướng bẩm sinh của con người là nhận ra trí thông minh tương tự như trí thông minh của mình và gán nó cho trí tuệ của người khác.

Nếu hệ thống AI “không thể phân biệt được hai người thật, hoặc không thể phân biệt được giữa con người và máy vượt qua bài kiểm tra Turing thông thường, nhưng có thể phân biệt được con người với máy vượt qua bài kiểm tra Turing bình thường với người quan sát, máy sẽ ", bài kiểm tra đã vượt qua.

Watt cho rằng rằng bằng cách để AI nhân vật như một người quan sát và so sánh phán đoán của nó với những người tham gia khác nhau với độ chính xác của con người, người ta có thể tiết lộ liệu AI có tâm lý ngây thơ giống con người hay không.

TuringTest dịch chuyển

Bài kiểm tra Turing bị đặt sai vị trí đánh giá hiệu suất của AI bằng cách yêu cầu giám khảo đọc bản ghi cuộc hội thoại của bài kiểm tra Turing tương tác do một con người hoặc giám khảo AI khác thực hiện trước đó.

Những người đánh giá mới được mô tả là "bị trật khớp" vì họ "mất liên lạc" và không có tương tác với AI.

Đây là một loại thử nghiệm Turing tĩnh mới vì phán đoán dựa trên nội dung có sẵn và không thể thay đổi, do con người hoặc AI tạo ra.

Thứ hai, trong bài kiểm tra Turing truyền thống, người đánh giá tương tác có thể đặt những câu hỏi năng động, linh hoạt và mang tính đối đầu, trong khi người đánh giá trong bài kiểm tra Turing tĩnh chỉ có thể đưa ra phán đoán dựa trên nội dung cuộc trò chuyện và không thể khám phá những câu hỏi chuyên sâu hiệu quả nhất thông qua tương tác. . Hỏi đường đi.

Các thử nghiệm tĩnh có những hạn chế nhất định trong đánh giá khả năng của mô hình, nhưng chúng có khả năng phản ánh các tình huống phổ biến trong thế giới thực, vì nhiều tương tác được đọc bởi nhiều đối tượng hơn là chỉ những người trực tiếp tham gia cuộc trò chuyện.

Phương pháp pháp thống kê để phát hiện nội dung do AI tạo

Hiện có một số phương pháp thống kê để phát hiện nội dung do AI tạo ra. Phương pháp này chủ yếu dựa trên nguyên tắc các mô hình ngôn ngữ lớn (LLM) tạo ra nội dung bằng cách lấy mẫu phân bố xác suất của các từ:

Điều này có thể để lại một số đặc điểm xác suất nhất định, chẳng hạn như nội dung do LLM tạo ra có nhiều khả năng xảy ra hơn về mặt thống kê so với nội dung do con người tạo ra.

Vào năm 2023, Mitchell và cộng sự đã phát triển một "độ cong"chỉ báo liên quan, đo lường mức độ tối ưu cục bộ của một đoạn văn bản bằng cách sử dụng các nhiễu loạn nhỏ do mô hình ngôn ngữ mặt nạ tạo ra có nhiều khả năng là nội dung tương đối tối ưu nhất. đến những nhiễu loạn gần đó.

Vào năm 2024, Mireshghallah và cộng sự nhận thấy rằng LLM nhỏ hơn có xu hướng là mô hình phát hiện tốt hơn, trong đó mô hình OPT với thông số 125m hoạt động tốt nhất khi phát hiện nội dung do AI tạo và đạt độ chính xác 90% khi phát hiện Tỷ lệ nội dung GPT-4.

Dựa trên những phương pháp tính toán phương pháp và phương pháp tính toán khác để phân loại văn bản, nhiều công cụ thương mại khác nhau đã được phát triển. Các nghiên cứu đánh giá tính hiệu quả của phương pháp này trong hoàn cảnh khác nhau, với các kết quả khác nhau: mặc dù độ chính xác cao ở một số khu vực nhưng các mô hình thường không đáng tin cậy và có thể tạo ra kết quả dương tính giả.

thử nghiệm đảo ngược

Trong thử nghiệm Turing ngược, GPT-3.5 và GPT-4 đóng nhân vật trọng tài, đánh giá bản ghi của các thử nghiệm Turing trước đó để xác định xem người tham gia là con người hay AI.

Nghiên cứu đặt ra 5 giả thuyết:

1. Độ chính xác của GPT-4 cao hơn hay thấp hơn đáng kể so với độ chính xác của con người.

2. GPT-4 có gặp khó khăn trong việc xác định chính xác người tham gia không?

3. Liệu mô hình có khả năng đánh giá người thật là con người hơn những người tham gia GPT-4 giỏi nhất hay không.

4. Liệu GPT-4 có hiển thị độ chính xác cao hơn với tư cách là trọng tài trong các bản ghi văn bản dài hơn hay không.

5. Độ chính xác của GPT-4 với tư cách là trọng tài có cao hơn GPT-3.5 hay không.

Độ chính xác nhận dạng của hai mô hình đã được khám phá, cũng như tác động của thời lượng hội thoại và chất lượng mô hình đối với khả năng phán đoán cũng như vai trò của chất lượng của mô hình ngôn ngữ lớn trong việc đánh giá bản ghi.

phương pháp

Sử dụng bản ghi của hơn lần bài kiểm tra Turing từ nghiên cứu năm 2023 của Jones và Bergen.

Trong đó, những người tham gia AI trong nghiên cứu của Jones và Bergen dựa trên ba mô hình sau: GPT-3.5, GPT-4 và ELIZA.

Ngoài ra, mẫu cần cân bằng số lượng người tham gia là con người và AI, đồng thời những người tham gia GPT-4 hoạt động tốt nhất có cùng tỷ lệ trò chơi với toàn bộ dữ liệu. và đảm bảo rằng việc phân phối các phán đoán của con người và AI cho mô hình hoạt động tốt nhất là như nhau.

Mô hình cần xác định loại người tham gia, cho biết mức độ tin cậy trong phán đoán của nó và cung cấp cơ sở cho phán đoán.

kết quả

Độ chính xác của GPT-4 với tư cách là trọng tài thấp hơn đáng kể so với độ chính xác của trọng tài tương tác là con người, đặc biệt là khi đánh giá những người tham gia AI hoạt động tốt nhất, điều này thấp hơn cơ hội.

Độ dài bản ghi và chất lượng mô hình (GPT-4 so với GPT-3.5) không có tác động đáng kể đến độ chính xác.

bàn luận

Trong thử nghiệm Turing ngược, cả hai hệ thống AI đều có khả năng đánh giá kém chính xác hơn so với người đánh giá tương tác của con người và đặc biệt kém chính xác hơn đối diện những người tham gia AI hoạt động tốt nhất.

Những người tham gia AI có tỷ lệ đậu cao hơn những người tham gia là con người, có nghĩa là những người đánh giá AI có nhiều khả năng phân loại sai những người tham gia AI là con người và những người tham gia là con người là AI.

Những kết quả này cho thấy các mô hình ngôn ngữ lớn hiện tại thực hiện kém công việc phân biệt giữa nội dung do con người tạo ra và nội dung do AI tạo ra — ngay cả khi chúng đang đánh giá nội dung được tạo ra bởi cùng một mô hình ngôn ngữ lớn.

Một lời giải thích khả dĩ cho kết quả này là đầu ra của các hệ thống này được điều khiển bởi sự thể hiện dữ liệu đào tạo con người của chúng.

Kết quả là, các mô hình có thể thiếu các biểu diễn sắc thái hoặc nhạy cảm với ngữ cảnh để có thể phân biệt sự khác biệt giữa đầu ra của chính chúng và dữ liệu huấn luyện mà chúng lập mô hình.

Các mô hình ngôn ngữ lớn hiện tại không phù hợp làm công cụ hiệu quả để phát hiện sự đóng góp của AI trong các cuộc hội thoại.

Kiểm tra Turing bị trật khớp

Bài kiểm tra Turing đặt sai vị trí đánh giá độ chính xác của việc mọi người xác định AI trong hoàn cảnh mà họ không thể tương tác trực tiếp với AI, chẳng hạn như đọc các cuộc trò chuyện trên mạng xã hội.

Trong thử nghiệm này, những người tham gia đóng vai trò là người xét xử con người, đánh giá xem những người tham gia là con người hay AI dựa trên các mẫu bảng điểm.

Nghiên cứu thiết lập một bộ câu hỏi tương tự như bài kiểm tra Turing ngược.

phương pháp

Mẫu 500 bảng điểm tương tự được hiển thị cho sinh viên UC San Diego (trong đó cộng 109, 84 nữ, độ tuổi từ 19 đến 31) và mỗi người tham gia nhận được một tập hợp con ngẫu nhiên gồm 50 bảng điểm.

Mỗi kỷ lục được đánh giá bởi trung bình 10 người tham gia.

Những người tham gia được yêu cầu cho biết mức độ tin cậy và cơ sở đánh giá của họ đối với từng hồ sơ. và điều chỉnh mô hình hiệu ứng hỗn hợp tuyến tính bằng cách sử dụng gói lmertest trong ngôn ngữ R.

kết quả

Độ chính xác nhận dạng của những người xét xử con người bị đặt sai vị trí thấp hơn so với những người xét xử con người tương tác, đặc biệt là khi xác định các mô hình AI dựa trên GPT.

Bảng điểm ngắn hơn dường như hữu ích hơn cho các thẩm phán.

bàn luận

Hoàn cảnh không đồng đều làm tăng thách thức trong việc xác định AI mô hình ngôn ngữ lớn, ngăn cản người tham gia đặt câu hỏi đối nghịch hoặc quan sát thời gian phản hồi của người tham gia, có thể khiến họ đưa ra quyết định nhanh hơn hoặc đầu tư ít công sức hơn.

Trong các tình huống thực tế, khi những người xét xử là con người không thể thẩm vấn trực tiếp nguồn nội dung văn bản, những kết quả này cho thấy mọi người có thể gặp khó khăn trong việc phân biệt một cách đáng tin cậy giữa nội dung do con người tạo ra và nội dung do AI tạo ra.

Tương tự như bài kiểm tra Turing ngược, những người tham gia GPT-4 hoạt động tốt nhất có tỷ lệ vượt qua cao hơn những người tham gia là con người.

Điều này cho thấy rằng khi đọc các cuộc trò chuyện trực tuyến giữa con người và mô hình AI, hệ thống AI có nhiều khả năng được đánh giá là con người hơn, trong khi con người thật có thể ít được xác định danh tính hơn.

Ngoài ra, tác động tiêu cực của độ dài bản ghi đến độ chính xác có vẻ phản trực giác: tại sao ít thông tin lại hữu ích hơn cho người xét xử?

Thật vậy, sự bất thường này có thể là do các yếu tố gây nhiễu lần, đặc biệt là trong cách xác định độ dài bản ghi.

Trong nghiên cứu ban đầu, người điều hành được quyền lựa chọn kết thúc cuộc trò chuyện sớm, điều mà họ có thể làm khi tự tin rằng mình đang giao tiếp với con người hoặc AI.

Do đó, bản ghi ngắn hơn có nhiều khả năng chứa thông tin đặc biệt hữu ích cho các thẩm phán tương tác và có thể hữu ích như nhau cho các thẩm phán bị trật khớp.

Phân tích kết quả

phân tích theo ngữ cảnh

Điểm khác biệt chính giữa thí nghiệm không thẳng hàng trên người và thí nghiệm ngược lại là những người đánh giá con người đã hoàn thành 50 bản ghi liên tiếp, trong khi những người đánh giá mô hình ngôn ngữ lớn được trình bày từng bản ghi một.

Nghiên cứu cho thấy việc xử lý liên tục các bản ghi văn bản có thể giúp trọng tài con người nắm bắt tốt hơn xu hướng chung của các bản ghi văn bản và xác định các đặc điểm định kỳ của người tham gia AI, từ đó dần dần cải thiện độ chính xác của các phán đoán.

Để kiểm tra xem liệu việc liên tục trình bày bản ghi có thể cải thiện hiệu suất của bộ xét xử AI hay không, các nhà nghiên cứu đã tiến hành một thử nghiệm tương tự trong đó GPT-4 liên tục được trình bày cùng với bản ghi văn bản.

Kết quả cho thấy bằng cách này, độ chính xác của GPT-4 đã tăng từ 36,4% lên 58%, gần bằng hiệu suất của các giám khảo con người.

Ngoài ra, khi GPT-4 được hỏi về chiến lược phán đoán của mình, GPT-4 cho biết chiến lược của họ dần dần chuyển từ việc kiểm tra ngữ pháp đơn giản đánh giá các yếu tố phức tạp như tính nhất quán, sự hài hước và sự khác biệt về cảm xúc cũng như mối liên hệ ngữ cảnh lâu dài trong các cuộc hội thoại, cho thấy khả năng nhận biết tiến trình thời gian thực của con người.

Điều này cho thấy rằng việc trình bày văn bản liên tục có thể nâng cao khả năng của người xét xử, dù là con người hay AI, trong việc hiểu và xác định các đặc điểm của văn bản.

Phân tích nguyên nhân

Để đánh giá các lý do đưa ra quyết định mà những người xét xử khác nhau dựa vào khi đánh giá xem bản ghi văn bản được tạo ra bởi con người hay AI, nghiên cứu đã sử dụng mô hình GPT-4o để phân tích lý do của những người xét xử dựa trên sơ đồ phân loại đặt trước.

Kế hoạch này do Jones và Bergen đề xuất nhằm mục đích nắm bắt và phân loại các lý do cụ thể mà các thẩm phán đưa ra cho các quyết định của họ.

Kết quả cho thấy có sự tương đồng đáng kể về các loại lý do được cả AI và con người đưa ra.

Khi đánh giá đoạn hội thoại đến từ AI, nguyên nhân phổ biến nhất là do nội dung đoạn hội thoại có vẻ “không tự nhiên”.

Khi đưa ra phán xét, các thẩm phán AI chú ý nhiều hơn đến việc liệu người đối thoại có thể hiện những đặc điểm cảm xúc xã hội độc đáo của con người hay không, chẳng hạn như thiếu nhân cách. Sự phân bổ lý do giữa các nhà xét xử là con người tương đối đồng đều hơn, bao gồm nhiều phạm trù khác nhau.

Khi đánh giá một cuộc trò chuyện là do con người thực hiện, cả ba loại người đánh giá thường chỉ vào những câu trả lời hợp lý và giọng điệu thân mật trong cuộc trò chuyện, đồng thời chú ý đến các yếu tố cảm xúc xã hội và phong cách ngôn ngữ.

Điều này cho thấy rằng dù người phán xử là con người hay AI thì khi đưa ra quyết định, họ có xu hướng nhấn mạnh các đặc điểm tương tự trong cuộc trò chuyện giúp họ phân biệt giữa nội dung do con người tạo ra và nội dung do AI tạo ra.

Phương pháp phát hiện trí tuệ nhân tạo thống kê

Để nghiên cứu tính hiệu quả của việc sử dụng phương pháp thống kê nhằm phát hiện nội dung do AI tạo ra trong bài kiểm tra Turing, nghiên cứu đã sử dụng hai phương pháp chính do Mireshghallah và cộng sự đề xuất: một phương pháp đo giá trị khả năng ghi nhật ký trung bình trong bản ghi và phương pháp còn lại là phép đo của độ cong.

Giá trị khả năng ghi nhật ký tính toán khả năng nội dung của văn bản sẽ được tạo ra với các giới từ; độ cong được đánh giá bằng cách so sánh chênh lệch xác suất giữa văn bản và nội dung tương tự của nó.

Các thử nghiệm được tiến hành bằng mô hình OPT-125m và kết quả cho thấy hai phương pháp này có tác dụng khác nhau trong việc phân biệt AI và văn bản do con người tạo ra.

Độ chính xác tổng thể thu được bằng phương pháp log-likelihood là 62%, trong khi độ chính xác của phương pháp độ cong thậm chí còn cao hơn, đạt 69%.

Phương pháp làm cong đặc biệt hiệu quả vì nó phân biệt tốt hơn giữa văn bản do con người và văn bản do AI tạo ra, đặc biệt khi xử lý các mô hình AI mới nhất và tiên tiến nhất như GPT-4.

Những phát hiện này cho thấy rằng mặc dù phương pháp thống kê này cung cấp một công cụ để phân biệt văn bản của con người và AI, nhưng độ tin cậy của chúng vẫn cần được cải thiện khi xử lý các mô hình AI tiên tiến nhất.

Nghiên cứu trong tương lai cần khám phá thêm phương pháp thống kê để cải thiện độ chính xác của việc phát hiện trong hoàn cảnh này.

Tóm tắt

tâm lý ngây thơ

Tiêu chí của Watt để vượt qua bài kiểm tra Turing ngược là hiệu suất của máy phải tương đương với hiệu suất của người đánh giá.

Nếu người đánh giá con người có thể phân biệt giữa con người và một AI cụ thể, thì người đánh giá AI cũng có thể làm được điều tương tự. Nếu con người không thể phân biệt được thì máy móc cũng sẽ thất bại.

Nghiên cứu cho thấy độ chính xác trong phán đoán của GPT-4 có thể so sánh với độ chính xác của phán đoán sai lệch của con người, với tỷ lệ chính xác của cả hai đều khoảng 58%.

Thông qua học tập theo ngữ cảnh (ICL), hiệu suất của GPT-4 thậm chí còn được cải thiện đến mức gần như tương đương với con người.

Tuy nhiên, mặc dù tỷ lệ chính xác tương tự nhau, nhưng kiểu lỗi của GPT-4 và người xét xử con người là khác nhau, cho thấy sự khác biệt cơ bản trong quá trình suy nghĩ và phán đoán giữa hai người.

Những phát hiện này ủng hộ lý thuyết của Watt rằng mô hình tinh thần của AI khác biệt một cách có hệ thống với mô hình xét xử của con người.

Nghiên cứu trong tương lai có thể khám phá thêm sự khác biệt trong cách con người và AI suy nghĩ bằng cách tăng cường tính tương tác và sửa đổi một cách có hệ thống các đặc điểm của bản ghi văn bản.

Những nghiên cứu này giúp hiểu rõ hơn về tiềm năng và hạn chế của AI trong việc mô phỏng các trạng thái tâm lý của con người.

Thử nghiệm thực tế

Phát hiện thực tế đề cập đến đánh giá tính xác thực của các cuộc trò chuyện giữa con người và AI trong hoàn cảnh phổ biến trong cuộc sống hàng ngày, chẳng hạn như mạng xã hội và diễn đàn.

Bài kiểm tra Turing trong loại hoàn cảnh này thường không an toàn vì người quan sát không thể tương tác trực tiếp với người đối thoại để xác minh xem họ có phải là AI hay không.

Nghiên cứu cho thấy rằng trong hoàn cảnh này, cả GPT-4 và người xét xử con người đều không thực hiện tốt việc phân biệt giữa AI và con người, đặc biệt là khi đối diện AI hoạt động tốt, có xu hướng thành công hơn so với việc cải trang chính mình.

Phương pháp phát hiện thống kê AI, chẳng hạn như phân tích độ cong của cách phát âm, đã cho thấy tiềm năng trong việc phân biệt giữa tin nhắn do con người và tin nhắn do AI tạo ra, với phân tích ROC cho thấy phương pháp này có thể đạt độ chính xác 69%.

Tuy nhiên, vấn đề dương tính giả trong các ứng dụng thực tế có thể ảnh hưởng xấu đến người dùng thực, cho thấy những hạn chế của phương pháp này trong các tình huống thực tế.

Nghiên cứu cũng cho thấy rằng việc tích lũy kinh nghiệm có thể cải thiện tính chính xác trong các phán đoán của trọng tài và cả những phán đoán của con người bị đặt sai vị trí và GPT-4 đều cho thấy xu hướng cải thiện sau lần phán quyết.

Nghiên cứu trong tương lai có thể khám phá những tác động học tập bằng cách đưa ra phản hồi cho người tham gia hoặc khám phá sâu hơn về sự tương tác giữa các công cụ đánh giá khác nhau. Những phát hiện này nêu bật sự phức tạp và thách thức của việc phát hiện AI trong hoàn cảnh thế giới thực.

Tóm lại

Trong thử nghiệm Turing ngược, GPT-3.5 và GPT-4 đóng vai trò là người phân xử AI và trong thử nghiệm Turing đặt sai vị trí, người đánh giá con người sẽ tham gia vào việc đánh giá xem người tham gia cuộc trò chuyện có phải là con người hay không.

Nhưng kết quả cho thấy cả người phán xử AI và người phán xử con người bị lệch đều kém chính xác hơn trong tình huống đọc thụ động so với người phán xử trong bài kiểm tra Turing ban đầu về tương tác trực tiếp.

Điều này cho thấy rằng, nếu không có sự tương tác tích cực, cả con người lẫn các mô hình ngôn ngữ quy mô lớn hiện nay đều không gặp khó khăn trong việc phân biệt giữa hai ngôn ngữ này.

Tham khảo

https://arxiv.org/pdf/2407.08853

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: lumina, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận