Lý luận đồ thị GPT-4 không xử lý được, model HKUST 7B xử lý được

avatar
36kr
06-11
Bài viết này được dịch máy
Xem bản gốc

Các mô hình lớn thực hiện nhiệm vụ suy luận đồ thị. Chúng ta muốn các mô hình lớn chỉ đưa ra kết quả hay đưa ra các quy trình suy luận chi tiết trong khi đưa ra câu trả lời chính xác?

Trước tiên chúng ta hãy xem hiệu suất của GPT-4 :

Một câu trả lời rất ngắn và không chính xác đã được đưa ra (đánh giá rằng không có chu trình trong biểu đồ), điều này có thể là do những hạn chế của mô hình trong việc xử lý các đầu vào dài hoặc do hiểu sai cấu trúc phức tạp của biểu đồ. Điều này cho thấy những thách thức mà các mô hình lớn gặp phải khi giải quyết các bài toán lý thuyết đồ thị.

Ngược lại, GraphWiz do đội ngũ HKUST phát triển không chỉ đưa ra câu trả lời đúng mà còn cung cấp lộ trình suy luận rõ ràng và chi tiết.

GraphWiz được thiết kế để cải thiện khả năng của các mô hình lớn mã nguồn mở hiện tại để giải quyết nhiệm vụ suy luận biểu đồ khác nhau:

Thông qua việc tinh chỉnh có mục tiêu của các mô hình quy mô lớn, nhiệm vụ suy luận đồ thị có độ phức tạp khác nhau sẽ được xử lý và đồng thời xuất ra các đường dẫn lý luận rõ ràng và mạch lạc.

Việc phát hiện các vòng trong đồ thị có tỷ lệ này là vô cùng khó khăn đối với con người. Thông thường, con người cần phải nhờ đến các công cụ bên ngoài hoặc tốn lượng lớn thời gian để hoàn thành nhiệm vụ này, bởi việc chỉ dựa vào tính toán tinh thần là không thực tế.

Điều này nêu bật khả năng của GraphWiz trong việc suy luận không gian và duy trì bộ nhớ. Nó cho thấy mô hình đã tiếp thu một cách hiệu quả các nguyên tắc cơ bản của lý thuyết đồ thị và có thể điều hướng và suy luận một cách tự chủ trong các cấu trúc đồ thị phức tạp và quy mô lớn. Khả năng xử lý các vấn đề đồ thị phức tạp của GraphWiz chứng tỏ tiềm năng to lớn của nó trong các ứng dụng thực tế.

Tóm lại, những đóng góp chính của bài viết này như sau:

Đã tạo GraphInstruct, một tập dữ liệu quy mô lớn dùng để đào tạo các mô hình ngôn ngữ nhằm xử lý nhiệm vụ biểu đồ và cung cấp các đường dẫn lý luận rõ ràng để cải thiện khả năng diễn giải.

Ra mắt GraphWiz, một mô hình ngôn ngữ quy mô lớn mã nguồn mở có khả năng giải quyết tốt các vấn đề về đồ thị khác nhau thông qua lý luận rõ ràng và có hiệu suất tốt hơn GPT-4.

Tác động của khối lượng dữ liệu huấn luyện và chiến lược lấy mẫu xuống khung DPO đối với hiệu suất mô hình đã được nghiên cứu và khả năng di chuyển giữa nhiệm vụ của GraphWiz đã được khám phá để cung cấp hướng dẫn cho việc tối ưu hóa mô hình và cải thiện hiệu suất tiếp theo.

Giới thiệu nhiệm vụ suy luận đồ thị

Trong nghiên cứu này, đội ngũ đã lựa chọn cẩn thận chín bài toán đồ thị với mức độ phức tạp tính toán khác nhau, bao quát cả chiều rộng và độ sâu của nghiên cứu, bao gồm:

Bốn nhiệm vụ phức tạp tuyến tính: kết nối và phát hiện chu trình, kiểm tra biểu đồ lưỡng cực và sắp xếp cấu trúc liên kết ;

Ba nhiệm vụ phức tạp đa thức: đường đi ngắn nhất, tổng tam giác tối đa, luồng tối đa;

và hai nhiệm vụ NP-đầy đủ: Đường dẫn Hamilton và khớp đồ thị con.

Bằng việc lựa chọn 9 bài toán đồ thị này, đội ngũ nghiên cứu đã tiến hành khám phá toàn diện lý thuyết đồ thị từ đơn giản đến phức tạp, có thể giải được cho đến khó. Sự lựa chọn đa dạng này không chỉ giúp đội ngũ hiểu thuật toán đồ thị về mặt lý thuyết mà còn giải quyết được nhiều vấn đề ứng dụng thực tế.

Xây dựng tập dữ liệu GraphInstruct

Việc xây dựng GraphInstruct bao gồm các bước chính sau:

Tạo vấn đề đồ thị. Để tạo thư viện bài toán biểu đồ đa dạng và đầy thách thức cho việc đào tạo và thử nghiệm mô hình, đội ngũ đã sử dụng phương pháp được lập trình hỗ trợ để tạo các bài toán biểu đồ ngẫu nhiên cho từng nhiệm vụ đặt trước. Đội ngũ đã thiết kế các mẫu duy nhất cho từng nhiệm vụ để nắm bắt các thuộc tính duy nhất của biểu đồ, chẳng hạn như biểu đồ có hướng hay vô hướng, các cạnh tỷ trọng hay không, v.v. Đội ngũ tạo đồ thị ngẫu nhiên đã áp dụng mô hình Erdős-Rényi (ER).

Tạo đường dẫn lý luận rõ ràng. GraphInstruct được trang bị một đường dẫn suy luận rõ ràng cho từng cặp bài toán đồ thị. Nhận thấy rằng việc gắn nhãn thủ công các đường dẫn lý luận cho nhiệm vụ đồ thị này rất phức tạp và tốn thời gian, đội ngũ đã chọn sử dụng GPT-4 để tạo các đường dẫn lý luận sơ bộ.

Lấy mẫu tăng cường và từ chối dữ liệu . Do quan sát thấy rằng GPT-4 hoạt động chưa được tốt trên nhiều nhiệm vụ biểu đồ, chẳng hạn như nhiệm vụ luồng tối đa trong dữ liệu ban đầu, đúng với ít hơn 100 mẫu, nên đội ngũ đã áp dụng chiến lược lấy mẫu từ chối để tăng cường dữ liệu để bao gồm nhiều mẫu hơn các lối suy luận.

Chọn từ các con đường lý luận đa dạng. Bước này yêu cầu tìm sự cân bằng giữa độ chính xác và tính đa dạng. Để đạt được mục tiêu này, đội ngũ đã áp dụng sê-ri chiến lược tinh tế, được chia thành phương pháp dựa trên chuỗi và dựa trên ngữ nghĩa để sàng lọc các lối suy luận tổng quát khác nhau.

Đào tạo GraphWiz

Dựa trên GraphInstruct, đội ngũ đã đào tạo GraphWiz nhằm mục đích tối ưu hóa khả năng giải quyết các vấn đề về đồ thị của mô hình lớn hiện tại và đưa ra các đường dẫn lý luận rõ ràng. Phương pháp đào tạo của GraphWiz là một quy trình gồm hai giai đoạn đổi mới:

Điều chỉnh hướng dẫn nhiệm vụ hỗn hợp : Trong giai đoạn đầu, đội ngũ tập trung vào việc cải thiện khả năng diễn giải và giải quyết các vấn đề đồ thị khác nhau của mô hình. Thông qua phương pháp này, GraphWiz học cách xử lý nhiều nhiệm vụ bao gồm hiểu vấn đề, xác định các thuộc tính biểu đồ, áp dụng thuật toán biểu đồ, v.v.

Căn chỉnh tối ưu hóa tùy chọn trực tiếp : Trong giai đoạn thứ hai, đội ngũ tiếp tục nâng cao khả năng suy luận của mô hình bằng cách đào tạo mô hình để phân biệt giữa các cách giải quyết vấn đề hiệu quả hơn và kém hiệu quả hơn. Căn chỉnh DPO cho phép các mô hình xác định và tạo ra các đường dẫn lý luận lý tưởng hơn, từ đó cải thiện độ chính xác và hiệu quả giải quyết vấn đề.

Đánh giá hiệu suất của GraphWiz

Đội ngũ đánh giá GraphWiz để trả lời các câu hỏi chính sau:

Câu hỏi 1: GraphWiz hoạt động như thế nào đối với các vấn đề về đồ thị có độ phức tạp khác nhau, đặc biệt là nó so sánh với GPT-4, mô hình nguồn đóng mạnh mẽ nhất hiện nay như thế nào?

Câu hỏi 2: Những thay đổi về lượng dữ liệu huấn luyện có tác động gì đến hiệu suất của GraphWiz?

Câu hỏi 3: GraphWiz di chuyển sang các vấn đề đồ thị khác nhau tốt đến mức nào?

Câu hỏi 4: Những thay đổi về số lượng nút trong biểu đồ sẽ ảnh hưởng như thế nào đến hiệu suất của GraphWiz? Hơn nữa, kích thước của biểu đồ phức tạp nhất mà nó có thể xử lý một cách hiệu quả là bao nhiêu?

Câu hỏi 5: Siêu tham số ß ảnh hưởng như thế nào đến hiệu suất của mô hình?

Như có thể thấy từ bảng trên, mô hình của đội ngũ đã chứng minh kết quả xuất sắc trên nhiều mô hình mã nguồn mở khác nhau, vượt xa đáng kể hiệu suất của GPT-4. Điều này vẫn nhất quán trong nhiệm vụ từ dễ đến khó. DPO cải thiện hơn nữa hiệu suất mô hình trung bình. Tuy nhiên, DPO có thể có tác dụng phụ đối với nhiệm vụ cụ thể. Điều này cho thấy rằng mặc dù DPO thường giúp cải thiện khả năng suy luận của mô hình nhưng có thể cần phải điều chỉnh thêm để tránh tác động tiêu cực đến một số loại vấn đề nhất định.

Theo bảng trên, đội ngũ nhận thấy rằng khi khối lượng huấn luyện tăng lên thì hiệu quả của cả hai mô hình sẽ được cải thiện. Ví dụ: độ chính xác trung bình của GraphWiz (Mistral-7B) tăng từ 46,56% theo tỷ lệ 1:1 lên 53,75 trong tỷ lệ 1:1. tỷ lệ 1:5. Điều này cho thấy rằng các cách suy luận đa dạng hơn thường mang lại lợi ích cho hiệu suất tổng thể của mô hình trong việc giải các bài toán suy luận đồ thị.

Đội ngũ có thể nhận thấy rằng trong một số nhiệm vụ , chẳng hạn như bài toán về tam giác và đường đi Hamilton, độ chính xác không được cải thiện đáng kể và thậm chí còn giảm nhẹ khi lượng dữ liệu tăng lên. Ví dụ: GraphWiz (Mistral-7B) có độ chính xác 47,00% theo tỷ lệ 1:1 đối với các bài toán tổng lượng giác, sau đó giảm xuống 38,75% theo tỷ lệ 1:5. Điều này có thể cho thấy quá khớp, trong đó mô hình bắt đầu ghi nhớ các mẫu trong dữ liệu huấn luyện không đúng với dữ liệu không nhìn thấy được.

Tóm lại, mặc dù việc tăng lượng dữ liệu và sự đa dạng của các đường dẫn suy luận nhìn chung có thể dẫn đến hiệu suất mô hình tốt hơn, nhưng vẫn có những dấu hiệu tiềm ẩn về việc trang bị quá mức trong một nhiệm vụ phức tạp nhất định, trong đó nhấn mạnh sự cần thiết phải thiết kế cẩn thận việc đào tạo mô hình và thực hiện đào tạo trên các biểu đồ khác nhau. nhiệm vụ được xác nhận để đảm bảo khả năng khái quát rộng.

Để khám phá khả năng chuyển đổi của GraphWiz trong nhiệm vụ đồ thị khác nhau, đội ngũ đã xây dựng một biến thể mô hình bổ sung: GraphWiz-High . Mô hình này chỉ được đào tạo trên hai nhiệm vụ đồ thị có độ phức tạp cao (NP-đầy đủ): Đường dẫn Hamilton và khớp đồ thị con. Để nghiên cứu khả năng di chuyển của nó, đội ngũ đã tiến hành hai thí nghiệm so sánh:

So sánh nhiệm vụ có độ phức tạp cao. Đầu tiên, đội ngũ so sánh GraphWiz-High với GraphWiz thông thường về nhiệm vụ có độ phức tạp cao. Hình (a) trên cho thấy GraphWiz hoạt động tốt hơn, xác minh tính hiệu quả của việc đào tạo nhiệm vụ hỗn hợp. Kết quả này cũng cho thấy mô hình có khả năng chuyển tải kiến ​​thức đã học từ nhiệm vụ khác sang nhiệm vụ cụ thể có độ phức tạp cao.

Khả năng di chuyển mẫu bằng không. Đội ngũ đã thử nghiệm thêm khả năng truyền không bắn của GraphWiz-High đối với nhiệm vụ có độ phức tạp thấp và trung bình chưa từng được đào tạo. Như được hiển thị trong (b) ở trên, GraphWiz-High có những cải tiến hiệu suất đáng kể so với Mistral-Base. Thậm chí so với ChatGPT, mô hình của đội ngũ vẫn duy trì hiệu suất tương đương. Xem xét sự khác biệt lớn về số lượng tham số giữa ChatGPT và GraphWiz-High, điều này cho thấy mô hình của đội ngũ có khả năng khái quát hóa nhiều nhiệm vụ đáng khen ngợi, thể hiện tiềm năng đáng kể cho các ứng dụng thực tế.

Để trả lời các câu hỏi về hiệu suất của mô hình thay đổi như thế nào với các kích thước biểu đồ khác nhau và để xác định kích thước biểu đồ tối đa mà mô hình có thể giải quyết một cách hiệu quả, đội ngũ sẽ trình bày trong hình trên nhiệm vụ thực hiện tốt nhất của GraphWiz (a) phát hiện vòng và nhiệm vụ kém nhất (b) Hiệu suất trên con đường ngắn nhất.

Từ hình vẽ, đội ngũ rút ra kết luận sau:

Cả GraphWiz và GPT-4 đều thể hiện giảm hiệu suất khi kích thước của biểu đồ tăng lên. Tuy nhiên, mô hình của đội ngũ hoạt động tốt hơn GPT-4 trong hầu hết các trường hợp khi kích thước biểu đồ nhất quán, cho thấy sự hiểu biết và xử lý cấu trúc biểu đồ tốt hơn.

Đội ngũ quan sát thấy rằng trên đường đi ngắn nhất, hiệu suất giảm đáng kể khi số lượng nút tăng lên. Giảm này rất có thể là do hai yếu tố chính: nhiệm vụ đòi hỏi khả năng suy luận và trí nhớ cao do độ phức tạp về thời gian cao hơn và kỹ năng tính toán mạnh mẽ, có thể đặt ra những thách thức bổ sung đối với năng lực của mô hình. Trên thực tế, đội ngũ nhận thấy cả hai mô hình đều chủ yếu dựa vào phép liệt kê để đi đến giải pháp. Do đó, khi kích thước biểu đồ tăng lên, suy luận liệt kê cần thiết tăng trưởng theo cấp số nhân, dẫn đến độ chính xác giảm đáng kể khi nút vượt quá 60, sau đó nó gần như không còn chính xác nữa.

Những quan sát này cho thấy rằng mặc dù GraphWiz vượt trội hơn đáng kể so với GPT-4 trong việc xử lý nhiệm vụ liên quan đến đồ thị, nhưng vẫn có một ngưỡng phức tạp nhất định—đặc biệt là trong nhiệm vụ yêu cầu tính toán ngoài suy luận đơn giản—mà ngay cả các mô hình hiện đại nhất cũng bắt đầu giảm hiệu suất đáng kể.

Cuối cùng, đội ngũ cũng khám phá tác động của tham số ß đến hiệu suất của mô hình. Đội ngũ quan sát thấy rằng ß cao hơn dường như mang lại lợi ích cho hiệu suất thực hiện nhiệm vụ khó khăn ở một mức độ nào đó, nhưng đây không phải là mối quan hệ tuyến tính chặt chẽ và không nhất quán giữa các kích cỡ mô hình khác nhau. Điều này cho thấy rằng việc điều chỉnh cẩn thận ß là cần thiết để đạt được sự cân bằng tối ưu giữa nhiệm vụ có độ khó khác nhau và cải thiện độ chính xác tổng thể của mô hình.

Thêm ví dụ

Đội ngũ cũng đã trình diễn thêm nhiều ví dụ lý luận GraphWiz cho nhiệm vụ khác nhau.

Nhiệm vụ kết nối:

Nhiệm vụ đường đi Hamilton:

Nhiệm vụ đường đi ngắn nhất:

Nhiệm vụ khớp đồ thị con:

Link giấy: https://arxiv.org/abs/2402.16029 Trang chủ dự án: https://graph-wiz.github.io/

Bài viết này xuất phát từ tài khoản công khai WeChat "Qubit" (ID: QbitAI) , tác giả: Chen Nuo của Đại học Khoa học và Công nghệ Hồng Kông, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận