Bài kiểm tra Turing đã chết, ChatGPT không được tính là vượt qua bài kiểm tra của con người và tân binh đánh giá siêu AI "câu đố logic"

09-01

Bài viết này được dịch máy

Xem bản gốc

AI mạnh nhất thế giới - ChatGPT có thể vượt qua nhiều bài kiểm tra khác nhau và thậm chí đưa ra các câu trả lời khiến việc phân biệt đúng sai trở nên khó khăn.

Tuy nhiên, có một lĩnh vực mà nó không thể làm được, đó là giải các câu đố logic trực quan đơn giản.

Trong một thử nghiệm bao gồm sê-ri các khối có màu sắc rực rỡ được sắp xếp trên màn hình, hầu hết mọi người đều có thể nhận ra mô hình kết nối.

Nhưng GPT-4 chỉ đúng 1/3 đối với một loại mẫu và 3% đối với loại khác, theo báo cáo tháng 5 của các nhà nghiên cứu.

Địa chỉ giấy: https://arxiv.org/pdf/2305.07141.pdf

Đội ngũ đằng sau nghiên cứu này nhằm mục đích cung cấp một tiêu chuẩn tốt hơn để kiểm tra khả năng của hệ thống AI và giúp giải quyết các vấn đề với các mô hình ngôn ngữ lớn như GPT-4.

Melanie Mitchell, tác giả của bài báo, cho biết những người trong lĩnh vực trí tuệ nhân tạo đang gặp khó khăn trong việc đánh giá các hệ thống này.

Đánh giá AI hiệu quả như thế nào?

Trong hai hoặc ba năm qua, LLM đã vượt qua các hệ thống AI trước đây về khả năng hoàn thành nhiều nhiệm vụ.

Chúng hoạt động đơn giản bằng cách tạo ra các từ tiếp theo hợp lý khi nhập văn bản, dựa trên mối tương quan thống kê giữa các từ trong hàng tỷ câu trực tuyến.

Đối với các chatbot được xây dựng trên LLM, còn có một yếu tố bổ sung: người huấn luyện con người cung cấp lượng lớn phản hồi để tinh chỉnh phản hồi của bot.

Đáng chú ý, khả năng của thuật toán giống như tự động hoàn thành này, được đào tạo trên kho ngôn ngữ lượng lớn của con người, thật đáng kinh ngạc.

Các hệ thống AI khác có thể đánh bại LLM ở một nhiệm vụ nhất định, nhưng chúng phải được đào tạo về dữ liệu của từng vấn đề cụ thể và không thể khái quát hóa từ nhiệm vụ này sang nhiệm vụ khác.

Nói rộng ra, các nhà nghiên cứu từ hai phe có quan điểm hoàn toàn trái ngược nhau về những gì diễn ra đằng sau LLM, Tomer Ullman, một nhà khoa học về nhận thức tại Đại học Harvard, cho biết. Một số thuộc tính thành tựu thuật toán để chớp nhoáng lý luận hoặc hiểu biết. Những người khác (bao gồm cả anh và những người khác như Mitchell) thận trọng hơn nhiều.

Các nhà nghiên cứu ở cả hai phía của cuộc thảo luận cho biết các bài kiểm tra như câu đố logic cho thấy sự khác biệt về khả năng của con người và hệ thống AI là một bước đi đúng hướng.

Brenden Lake, một nhà khoa học điện toán nhận thức tại Đại học New York, cho biết những điểm chuẩn như vậy giúp bộc lộ những thiếu sót của hệ thống máy học ngày nay và gỡ rối các yếu tố trí tuệ của con người.

Nghiên cứu về cách kiểm tra LLM tốt nhất và ý nghĩa của các thử nghiệm này cũng rất hữu ích.

Mitchell nói rằng nếu LLM được áp dụng cho nhiều lĩnh vực khác nhau trong thế giới thực, chẳng hạn như y học và luật. Sau đó, điều rất quan trọng là phải hiểu giới hạn khả năng của họ.

Bài kiểm tra Turing có chết không?

Bài kiểm tra nổi tiếng nhất về trí thông minh của máy từ lâu đã là bài kiểm tra Turing.

Phép thử Turing được nhà toán học và chuyên gia máy tính người Anh Alan Turing đề xuất vào năm 1950, khi máy tính vẫn còn ở giai đoạn sơ khai.

Turing đề xuất một đánh giá mà ông gọi là “trò chơi bắt chước”.

Trong trường hợp này, "thẩm phán con người" tham gia vào một cuộc trò chuyện ngắn bằng văn bản với máy tính và một người không nhìn thấy.

Con người này có thể phát hiện một cách đáng tin cậy máy tính nào không? Turing cho rằng đây là câu hỏi tương đương với câu hỏi "máy có thể suy nghĩ được không?"

Mitchell chỉ ra rằng Turing không nêu rõ nhiều chi tiết của kịch bản nên không có tiêu chuẩn chính xác nào để tuân theo.

Các nhà nghiên cứu khác tin rằng GPT-4 và các LLM khác hiện có khả năng vượt qua "bài kiểm tra Turing" vì chúng có thể đánh lừa rất nhiều người, ít nhất là trong những cuộc trò chuyện ngắn.

Vào tháng 5, các nhà nghiên cứu tại AI21 Labs đã báo cáo rằng hơn 1,5 triệu người đã chơi trò chơi trực tuyến dựa trên Turing Test của họ.

Người chơi chỉ xác định chính xác bot trong 60% trường hợp, điều này không khác gì cơ hội.

Tuy nhiên, trong trò chơi này, các nhà nghiên cứu quen thuộc với LLM vẫn có thể giành chiến thắng. Bằng cách khai thác những điểm yếu đã biết của hệ thống AI, LLM có thể dễ dàng được phát hiện.

Điều quan trọng là đưa LLM ra khỏi “vùng an toàn” của nó.

François Chollet, một kỹ sư phần mềm tại Google, đề xuất hiển thị cho LLM một số kịch bản là các biến thể của những kịch bản mà LLM thường thấy trong dữ liệu đào tạo của nó. Trong nhiều trường hợp, LLM trả lời bằng cách đưa ra những từ có nhiều khả năng liên quan nhất đến câu hỏi ban đầu trong dữ liệu huấn luyện, thay vì câu trả lời đúng cho tình huống mới.

Tuy nhiên, Chollet và những người khác nghi ngờ việc kiểm tra lấy sự đánh lừa làm trung tâm là mục tiêu của khoa học máy tính.

Đo điểm chuẩn là nguy hiểm

Thay vào đó, các nhà nghiên cứu thường không sử dụng bài kiểm tra Turing khi đánh giá hệ thống AI mà thay vào đó sử dụng các điểm chuẩn được thiết kế để đánh giá hiệu suất của các khả năng cụ thể như ngôn ngữ, lý luận thông thường và toán học.

Ngày càng nhiều đội ngũ nghiên cứu cũng đang chuyển sang các kỳ thi học thuật và chuyên môn được thiết kế cho con người.

Khi GPT-4 được phát hành, OpenAI đã kiểm tra hiệu suất của nó trên sê-ri điểm chuẩn được thiết kế cho máy, bao gồm khả năng đọc hiểu, toán học và mã hóa.

Theo báo cáo kỹ thuật, GPT-4 đạt kết quả xuất sắc trong hầu hết các thử nghiệm này.

Ngoài ra, GPT-4 còn thực hiện 30 bài kiểm tra, GRE, bài kiểm tra đánh giá hiện trạng kiến thức lâm sàng của các bác sĩ Mỹ, các bài kiểm tra theo chủ đề khác nhau được thiết kế cho học sinh trung học Mỹ, v.v.

Sau này, một trong những thách thức được các nhà nghiên cứu đề cập là các mô hình được huấn luyện trên lượng lớn văn bản và họ có thể đã thấy các vấn đề tương tự trong dữ liệu huấn luyện, vì vậy họ thực sự có thể đang tìm kiếm câu trả lời. Vấn đề này thực sự bị "ô nhiễm".

Các nhà nghiên cứu cũng lưu ý rằng sự thành công của LLM trong các câu hỏi thi có thể chỉ là một kỳ quan và có thể không chuyển thành những khả năng mạnh mẽ cần thiết trong thế giới thực.

Có một vấn đề sâu sắc hơn khi giải thích ý nghĩa của những điểm chuẩn này.

Một người thực hiện tốt bài kiểm tra thường có thể được coi là đã thực hiện tốt các bài kiểm tra nhận thức khác và đã nắm vững một số khái niệm trừu tượng nhất định.

Tuy nhiên, LLM hoạt động rất khác với con người. Do đó, không phải lúc nào việc ngoại suy về hệ thống trí tuệ nhân tạo cũng giống như cách chúng ta đánh giá con người.

Điều này có thể là do LLM chỉ có thể học từ ngôn ngữ. Nếu không ở trong thế giới vật chất, họ không thể trải nghiệm sự kết nối của ngôn ngữ với đồ vật, tính chất và cảm xúc như cách con người làm.

Rõ ràng là họ hiểu từ ngữ khác với con người.

Mặt khác, LLM còn có những khả năng mà con người không có, chẳng hạn như biết được mối liên hệ giữa hầu hết mọi từ mà con người từng viết ra.

Nick Ryder, một nhà nghiên cứu tại OpenAI, đồng ý rằng hiệu suất trong một bài kiểm tra có thể không khái quát đối với những người có cùng điểm số.

Ông nói: “Tôi không nghĩ chúng ta nên rút ra bất kỳ kết luận tương đương nào từ những đánh giá của chúng ta về con người và các mô hình ngôn ngữ lớn”. Điểm của OpenAI "không đại diện cho khả năng hay khả năng suy luận của con người. Nó nhằm mục đích minh họa mức độ thực hiện nhiệm vụ của mô hình."

Các nhà nghiên cứu AI cho rằng cần có sự đánh giá rộng hơn và nghiêm ngặt hơn để tìm ra điểm mạnh và điểm yếu của LLM. Câu đố logic đầy màu sắc có thể là một ứng cử viên.

Câu đố logic xuất hiện

Vào năm 2019, trước khi LLM bùng nổ, Chollet đã phát hành trên Internet một bài kiểm tra logic mới dành cho các hệ thống trí tuệ nhân tạo do chính ông tạo ra có tên là Tóm tắt và Lý luận (ARC).

Những người giải phải nhìn thấy hình ảnh trực quan của một số hình vuông thay đổi thành một mẫu khác và chứng tỏ rằng họ đã nắm vững các quy tắc cơ bản của sự thay đổi bằng cách chỉ ra hình vuông tiếp theo sẽ biến đổi như thế nào.

Chollet cho biết ARC nắm bắt được “những dấu hiệu nổi bật của trí thông minh con người”. Khả năng trừu tượng hóa kiến thức hàng ngày và áp dụng nó vào những vấn đề chưa từng gặp trước đây.

Hiện tại, một số đội ngũ nghiên cứu đã sử dụng ARC để kiểm tra khả năng của LLM và không nhóm nào có thể đạt được hiệu suất gần giống con người.

Mitchell và các đồng nghiệp của cô đã tạo ra sê-ri loạt câu đố mới - được đặt tên là ConceptARC - được lấy cảm hứng đến từ ARC nhưng khác biệt ở hai điểm chính.

Thử nghiệm ConceptARC dễ dàng hơn. Đội ngũ của Mitchell muốn đảm bảo rằng điểm chuẩn không bỏ lỡ những tiến bộ nhỏ về khả năng của máy. Một điểm khác biệt nữa là đội ngũ chọn các khái niệm cụ thể để thử nghiệm và sau đó tạo ra sê-ri câu đố cho từng khái niệm biến thể theo chủ đề.

Hiệu suất kém có nghĩa là gì?

Các nhà nghiên cứu đã giao nhiệm vụ ConceptARC cho GPT-4 và 400 người đăng ký trực tuyến.

Con người đạt điểm trung bình 91% trong tất cả các nhóm khái niệm (97% trong một nhóm); GPT đạt 33% trong một nhóm và dưới 30% trong tất cả các nhóm khác.

Các nhà nghiên cứu đã chứng minh rằng AI vẫn chưa thể đạt được hiệu suất của con người. Tuy nhiên, đáng ngạc nhiên là nó có thể giải quyết được những vấn đề mà nó chưa bao giờ được đào tạo để giải quyết.

Nhóm nghiên cứu cũng đã thử nghiệm chatbot hàng đầu trong cuộc thi Chollet.

Nhìn chung, chúng hoạt động tốt hơn GPT-4 nhưng hoạt động kém hơn con người, đạt điểm cao nhất trong một hạng mục là 77%, nhưng đạt điểm thấp hơn 60% ở hầu hết các hạng mục.

Tuy nhiên, Bowman cho rằng việc GPT-4 thất bại trong kỳ thi ConceptARC không chứng tỏ rằng nó thiếu khả năng suy luận trừu tượng cơ bản.

Trên thực tế, ConceptARC có một số nhược điểm so với GPT-4 và một trong những lý do là vì nó chỉ là thử nghiệm trực quan.

Hiện tại, GPT-4 chỉ có thể chấp nhận văn bản làm đầu vào nên các nhà nghiên cứu đã đưa cho GPT-4 một dãy số đại diện cho hình ảnh. Ngược lại, những người tham gia là con người nhìn thấy hình ảnh.

lập luận lý luận

Bowman chỉ ra rằng, cùng với các thí nghiệm khác, LLM ít nhất đã có được khả năng cơ bản để suy luận về các khái niệm trừu tượng.

Tuy nhiên, khả năng suy luận của LLM nhìn chung là “không đồng đều” và hạn chế hơn khả năng suy luận của con người. Tuy nhiên, khi thang tham số của LLM tăng lên thì khả năng suy luận cũng sẽ tăng theo.

Nhiều nhà nghiên cứu đồng ý rằng phương pháp tốt nhất để kiểm tra LLM về lý luận trừu tượng và các dấu hiệu trí thông minh khác vẫn là một câu hỏi mở, chưa có lời giải.

Người giới thiệu

https://www.nature.com/articles/d41586-023-02361-7

Bài viết này đến từ tài khoản công khai WeChat "Xin Zhiyuan" (ID: AI_era) , tác giả: Taozi và 36 Krypton được xuất bản với sự cho phép.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan