Đổi mới Luật mở rộng quy mô? Mô hình thế giới GPT-4o cho phép các tác nhân thông minh siêu lập kế hoạch, một tác phẩm của OSU Chinese

avatar
36kr
một ngày trước
Bài viết này được dịch máy
Xem bản gốc

Luật Scaling va vào tường, khó tính toán khi mở rộng lý luận của tác nhân ngôn ngữ! Cách phá vỡ tình thế là lấy LLM làm hình mẫu thế giới? Đội ngũ OSU Trung Quốc nhận thấy rằng việc sử dụng GPT-4o làm mô hình thế giới để hỗ trợ lập kế hoạch trong hoàn cảnh phức tạp có tiềm năng rất lớn.

Liệu Luật Scaling có thể tồn tại trở lại?

Làm cách nào để mở rộng quy mô tính toán thời gian suy luận thông qua việc lập kế hoạch cấp cao của các tác nhân ngôn ngữ?

Câu trả lời là - sử dụng LLM làm mô hình thế giới.

Điều đó nói lên rằng, việc sử dụng GPT-4o để dự đoán kết quả của các hành động trên trang web có thể mang lại hiệu suất mạnh mẽ đồng thời cải thiện tính bảo mật và hiệu quả.

Gần đây, các nhà nghiên cứu từ Đại học bang Ohio và các tổ chức khác đã đề xuất một khung WebDreamer mới, có thể sử dụng LLM làm mô hình thế giới để dự đoán kết quả tương tác trên trang web.

Địa chỉ giấy: https://arxiv.org/abs/2411.06559

Vài ngày trước, tại hội nghị Microsoft Ignite, Nadella nói rằng sự phát triển AI vẫn chưa đạt đến mức trần và chúng ta đang chứng kiến ​​​​sự trỗi dậy của luật Scaling trong lý luận.

Vâng, nghiên cứu mới này là một bước đi theo hướng đó.

01 Điểm khác biệt chính giữa tác nhân ngôn ngữ và suy luận toán học là sự tương tác

Tác giả đầu tiên Yu Gu nói rằng vấn đề này đã làm phiền anh ấy kể từ khi phát hành o1——

Tại sao mở rộng tính toán thời gian suy luận của một tác nhân ngôn ngữ lại khó đến vậy? Tác nhân ngôn ngữ có gì đặc biệt?

Để làm điều này, anh ấy đã phá vỡ vấn đề.

Không giống như nhiệm vụ như suy luận toán học, điểm khác biệt chính giữa các tác nhân ngôn ngữ là sự tương tác: mọi hành động chúng thực hiện đều gây ra một quan sát mới về hoàn cảnh để đưa ra quyết định tiếp theo.

Tương tác làm phức tạp việc khám phá không gian tìm kiếm vì -

1. Trao đổi với hoàn cảnh rất tốn kém

2. Nhiều hoạt động có trạng thái thay đổi và không thể đảo ngược (chẳng hạn như xác nhận mua hàng trên trang web mua sắm), khiến cho việc quay lại tìm kiếm dạng cây không thể thực hiện được trên các trang web trong thế giới thực.

Vậy liệu chúng ta có thể sử dụng LLM làm mô hình thế giới để dự đoán kết quả tương tác trên trang web không? (ví dụ: "Điều gì sẽ xảy ra nếu bạn nhấp vào nút này")

Bằng cách này, có thể đạt được việc khám phá không gian tìm kiếm hiệu quả và có thể giảm chi phí tương tác thực tế.

Câu trả lời là có!

Yu Gu và cộng sự nhận thấy rằng GPT-4o mã hóa hiệu quả kiến ​​thức sâu rộng về một trang web và làm cơ sở cho khung lập kế hoạch dựa trên mô hình WebDreamer.

Vì được trang bị các mô hình thế giới được mô phỏng bằng LLM nên WebDreamer thể hiện tính hiệu quả và hiệu quả tốt.

Đầu tiên, nó có hiệu suất mạnh mẽ: tốt hơn nhiều so với đường cơ sở phản ứng trên VisualWebArena và Mind2Web-live.

Về mặt hiệu quả, nó chỉ yêu cầu số lượng tương tác bằng một nửa so với tìm kiếm cây.

Hơn nữa, nó còn có thêm hai lợi thế nhờ mô phỏng mô hình thế giới dựa trên LLM.

Một là bảo mật tốt hơn vì nó giảm rủi ro bảo mật bằng cách giảm thiểu các tương tác trong thế giới thực.

Một điều nữa là tích hợp linh hoạt: nó hoạt động trơn tru như plug-in cho các tác nhân khác nhau và bổ sung cho tác nhân tìm kiếm dạng cây.

02 Cốt lõi của WebDreamer là “mơ”

Môi giới cũng cần ước mơ?

Không giống như nhiệm vụ như lý luận toán học, điểm khác biệt chính giữa các tác nhân ngôn ngữ là sự tương tác: mọi hành động chúng thực hiện đều gây ra những thay đổi mới trong hoàn cảnh, từ đó tạo ra những thách thức cho việc ra quyết định tiếp theo.

Tương tác liên tục làm cho việc tìm kiếm không gian giải pháp trở nên vô cùng khó khăn vì tương tác với hoàn cảnh tốn kém về mặt tính toán; nhiều hoạt động thay đổi trạng thái là không thể đảo ngược và việc sử dụng một tác nhân để thực sự tương tác với trang web có rủi ro bảo mật nhất định, ví dụ: rò rỉ thông tin và mất tài sản cá nhân. những giao dịch bất ngờ.

Làm thế nào để tìm kiếm không gian giải pháp một cách hiệu quả đồng thời giảm chi phí tương tác thực tế và đảm bảo sự an toàn, tin cậy của tác nhân đã trở thành một vấn đề cấp bách cần giải quyết.

Nói ngắn gọn, cốt lõi của WebDreamer là khái niệm "mơ": trước khi thực hiện bất kỳ hành động nào, tác nhân sử dụng LLM để tưởng tượng và dự đoán kết quả của từng bước có thể xảy ra, đồng thời mô tả trạng thái sẽ thay đổi như thế nào bằng ngôn ngữ tự nhiên.

Những kết quả mô phỏng này sau đó đánh giá theo mức độ đạt được nhiệm vụ mục tiêu. Cuối cùng, thực hiện hành động mô phỏng có khả năng đạt được nhiệm vụ mục tiêu nhất. Quá trình này được lặp lại cho đến khi LLM xác định rằng mục tiêu đã đạt được.

Hình 1 là sơ đồ của các chiến lược khác nhau được đại diện bởi một tác nhân trang web dưới dạng một bài toán tìm kiếm, trong đó mỗi nút đại diện cho một trang web.

Để rõ ràng, chỉ có kết quả mô phỏng một bước được mô tả. Nút mờ biểu thị các trang web chưa được xem, đồng thời các dấu kiểm màu xanh lục và dấu gạch chéo màu đỏ tương ứng biểu thị kết quả thành công và không thành công.

Hình 1(a) Phản ứng: Vì tác nhân luôn chọn mức tối ưu cục bộ mà không lập kế hoạch trước nên thường dẫn đến kết quả lần.

Hình 1(b) Tìm kiếm dạng cây kết hợp với tương tác thực: tác nhân khám phá nhiều đường dẫn thông qua điều hướng trang web đang hoạt động và cho phép quay lại (được biểu thị bằng mũi tên nét đứt). Tuy nhiên, trong các trang web trong thế giới thực, việc quay lại thường không khả thi do các hoạt động không thể đảo ngược diễn ra phổ biến.

Hình 1(c) Lập kế hoạch dựa trên mô hình: Trước khi thực hiện thực tế, tác nhân mô phỏng các kết quả tiềm năng (được hiển thị dưới dạng đám mây nút) để xác định hành động tốt nhất, do đó giảm thiểu các tương tác thực tế trên trang web trong khi vẫn duy trì hiệu quả.

Tóm lại, với sự hỗ trợ của mô hình thế giới mô phỏng LLM, WebDreamer đã thể hiện hiệu suất và hiệu quả tuyệt vời cũng như khả năng mở rộng mạnh mẽ:

Hiệu suất: Hiệu suất trên VisualWebArena và Mind2Web-live vượt xa mô hình cơ sở phản ứng.

Hiệu quả: Chỉ bằng một nửa số lượng tương tác so với tìm kiếm dạng cây.

Bảo mật: Giảm thiểu rủi ro bảo mật một cách hiệu quả bằng cách giảm các tương tác trong thế giới thực.

Tích hợp: Hoạt động liền mạch như plug-in cho nhiều tác nhân và bổ sung chức năng của tác nhân tìm kiếm dạng cây.

03 Chuẩn bị

thiết lập nhiệm vụ

Với nhiệm vụ tự động hóa các tương tác thời gian thực trên trang web, các tác nhân web phải đối mặt với không gian giải pháp tìm kiếm rộng lớn và phức tạp.

Về mặt hình thức, mỗi nhiệm vụ với hướng dẫn nhiệm vụ I có thể được xem như một quá trình quyết định Markov có thể quan sát được một phần (POMDP): (S, A, O, T, R, Ω).

Trong đó, S đại diện cho tập hợp tất cả các trạng thái có thể có trong hoàn cảnh, A đại diện cho tất cả các hành động có thể có mà tác nhân có thể thực hiện, O đại diện cho tập hợp tất cả các quan sát có thể có trong hoàn cảnh, T : S × A → S đại diện cho hàm chuyển trạng thái và R là Phần thưởng nhị phân biểu thị liệu nhiệm vụ I đã được hoàn thành hay chưa: S → O là một hàm xác định có thể chiếu trạng thái tới giá trị được quan sát.

Mục tiêu của nhiệm vụ là thực hiện sê-ri hành động để nhận được phần thưởng là 1.

Trong các tình huống thực tế, do sự phức tạp của hoàn cảnh mạng, bao gồm các biến phía máy chủ, nội dung được tải động, các thành phần giao diện người dùng ẩn và bị ảnh hưởng bởi các điều kiện mạng cũng như các giới hạn của trình duyệt, tác nhân chỉ có thể đi qua một góc nhìn hạn chế (tức là o ∈ O) để nhận biết hoàn cảnh mạng .

Phối cảnh quan sát hạn chế này cũng tạo thành một không gian hành động A tương ứng, bao gồm các hoạt động tương tác có thể được thực hiện trong o, chẳng hạn như nhấn, nhập văn bản và nhảy URL.

Bảng 1 Không gian hành động điều hướng web được xác định trong Visual WebArena

Lập kế hoạch thông qua mô phỏng

Lập kế hoạch cho một chuỗi hành động tối ưu thông qua tìm kiếm cây bằng cách sử dụng các tương tác thực được điều khiển bởi hàm chuyển trạng thái “T” rất tốn kém và có rủi ro không thể đảo ngược. Lập kế hoạch dựa trên mô hình giải quyết những thách thức này bằng cách sử dụng các biểu diễn tính toán của hoàn cảnh để mô phỏng kết quả của các tương tác.

Một phương pháp nổi bật là Kiểm soát dự đoán mô hình (MPC), lựa chọn các hành động bằng cách mô phỏng lặp đi lặp lại các quỹ đạo trong tương lai.

Đối với mỗi trạng thái s, MPC sử dụng hàm mô phỏng sim(s, a) để mô phỏng quỹ đạo của từng hành động có thể xảy ra a ∈ A trong phạm vi dự đoán giới hạn H và đánh giá bằng cách sử dụng điểm của hàm tính điểm(τ). Sau đó thực hiện các hành động tương ứng với quỹ đạo hứa hẹn nhất:

Quá trình này được lặp lại sau khi quan sát được các trạng thái mới, cho phép tác nhân điều chỉnh kế hoạch của mình dựa trên kết quả thực tế đồng thời tránh việc khám phá thế giới thực tốn kém. Trên thực tế, do khả năng quan sát một phần nên chúng ta không tiếp cận được trạng thái thực nên chúng ta sử dụng o = Ω(s) để tính sim(o, a).

04 Network Agent theo quy hoạch mô hình

Tác giả sử dụng LLM như một mô hình thế giới và đề xuất một phương pháp tiên phong: WebDreamer để lập kế hoạch hiệu quả trong hoàn cảnh mạng phức tạp.

Phương pháp này được lấy cảm hứng từ hiện tượng mặc dù giao diện web phức tạp nhưng thiết kế của chúng vẫn có thể dự đoán được đối với người dùng.

Khi duyệt một trang web, con người có thể dự đoán một cách hiệu quả kết quả của các hành động dựa trên tín hiệu trực quan và các mẫu thiết kế phổ biến— nhấn nút “Gửi” sẽ gửi biểu mẫu và chọn hình ảnh sản phẩm sẽ điều hướng đến trang chi tiết của nó.

Cho rằng LLM được đào tạo trên lượng lớn dữ liệu liên quan đến web, các tác giả cho rằng họ đã có đủ kiến ​​thức để mô phỏng hậu quả của hành động của người dùng, đủ để đóng vai trò là mô hình thế giới để lập kế hoạch hiệu quả.

thiết kế cốt lõi

Cốt lõi của WebDreamer là sử dụng LLM để triển khai chức năng mô phỏng sim và chức năng tính điểm.

Hình bên dưới thể hiện kết quả WebDreamer sử dụng LLM trong đó mô phỏng ba hành động ứng cử viên. WebDreamer mô phỏng quỹ đạo hai bước của mỗi hành động, chọn quỹ đạo có điểm cao nhất và thực hiện hành động ban đầu tương ứng.

Hình minh họa quỹ đạo của ba hoạt động ứng cử viên trong mô phỏng LLM mô tả ngôn ngữ tự nhiên:

(1) Nhấp vào "Sản phẩm văn phòng"

(2) Nhấp vào "Điện tử"

(3) Nhập "Đĩa" vào hộp văn bản

Thông qua những mô phỏng này, mỗi quỹ đạo kết quả sẽ được tính điểm để xác định hành động có nhiều khả năng thành công nhất.

Trong trường hợp này, LLM chọn nhấp vào "Điện tử" là bước tốt nhất và thực hiện nó. Mỗi hộp nét đứt thể hiện mô tả trạng thái do LLM tạo ra sau mỗi thao tác mô phỏng.

thực hiện sim

Việc triển khai chức năng mô phỏng sim bao gồm hai mô-đun: một mô-đun dự đoán sự thay đổi trạng thái sau khi hành động được thực hiện và ước tính hàm chuyển đổi trạng thái “T” trong khi mô-đun còn lại tưởng tượng các hành động có thể xảy ra dựa trên trạng thái dự đoán.

Cùng với nhau, hai mô-đun này tạo ra quỹ đạo có độ dài H, trong đó H là tham số độ sâu mô phỏng có thể định cấu hình.

Cụ thể, để thể hiện những thay đổi trạng thái, các nhà nghiên cứu yêu cầu LLM tạo ra một mô tả ngôn ngữ tự nhiên ngắn gọn, chỉ tập trung vào tác động của các hành động.

Ví dụ: trong Hình 2, khi được nhắc dự đoán tác động của việc thực hiện hành động nhấp vào "Điện tử", LLM sẽ đưa ra mô tả ngắn gọn sau:

Dựa trên trạng thái được dự đoán này, LLM sau đó sẽ tưởng tượng hành động tiếp theo (ví dụ: nhấn"Máy tính và Phụ kiện"), điều này sẽ dẫn đến một dự đoán khác về sự thay đổi trạng thái.

Quá trình này tạo ra một quỹ đạo có độ sâu mô phỏng H=2.

Việc thực hiện tính điểm

Sau khi sử dụng sim để mô phỏng quỹ đạo τi từ mỗi hành động ứng viên ai, các nhà nghiên cứu tiếp tục sử dụng LLM làm hàm tính điểm của từng quỹ đạo mô phỏng.

Họ đã nhắc LLM đánh giá từng quỹ đạo mô phỏng theo ba thang điểm—đã hoàn thành (1,0), đang thực hiện (0,5) hoặc không chính xác (0)—để cho biết tiến trình hoàn thành nhiệm vụ của nó.

Điểm cuối cùng được tính bằng cách lấy trung bình lần mẫu của đánh giá này. Ngoài sim và điểm số, điều kiện tiên quyết để lập kế hoạch là tạo ra hành động của ứng viên.

Các nhà nghiên cứu đã áp dụng phương pháp hai giai đoạn: đầu tiên lấy mẫu k hành động đầu tiên và sau đó sử dụng tính năng tự tối ưu hóa LLM để loại bỏ các hành động không cần thiết cho mô phỏng.

Bước tự tối ưu hóa này được thúc đẩy bởi quan sát của các nhà nghiên cứu rằng cùng một k có thể đưa ra các mức độ khác nhau của các hành động không liên quan trong các bước khác nhau - một số bước có thể được thực hiện với ít hành động hiệu quả hơn các bước khác.

Trong Thuật toán 1, chúng hiển thị mã giả của thiết kế tổng thể của WebDreamer. Kiểm tra kết thúc được sử dụng để xác minh xem mô hình có đưa ra hành động dừng hay không. Quy tắc là khi thuật toán đạt đến bước tối đa hoặc lặp lại một hành động ba lần liên tiếp, nó sẽ dừng thực thi thuật toán.

Các lời nhắc hệ thống hoàn chỉnh như sau:

05 Kết quả thực nghiệm

hiệu quả

Như được hiển thị trong Bảng 2, WebDreamer cho thấy những cải tiến đáng kể so với các tác nhân phản ứng trên dữ liệu trực tiếp của VWA và Mind2Web :

Trên tập dữ liệu VWA, đã đạt được mức cải thiện hiệu suất tương đối là 33,3%.

Trên tập dữ liệu trực tiếp Mind2Web, so với mô hình Reactive, nó đã cải thiện 2,9% (mức tăng tương đối là 13,1%)

Mặc dù sơ đồ dựa trên tìm kiếm cây vẫn cao hơn về tỷ lệ thành công tổng thể nhưng nó không thực sự phù hợp với các kịch bản mạng thực. WebDreamer có thể cung cấp giải pháp thay thế linh hoạt và dễ thích ứng hơn.

Bảng 2: Kết quả của VisualWebArena và Mind2Web-live

Đi xa hơn, các nhà nghiên cứu đã so sánh hiệu suất đa chiều của mô hình WebDreamer và Reactive trên dữ liệu VWA.

Bảng 3 cho thấy phương pháp lập kế hoạch dựa trên mô hình luôn vượt trội hơn phương pháp cận dựa trên mô hình Phản ứng trên tất cả các địa điểm và mức độ khó nhiệm vụ .

Trong nhiệm vụ có độ khó trung bình được VWA chính thức dán nhãn, việc lập kế hoạch dựa trên mô hình thậm chí còn vượt qua hiệu suất của sơ đồ tìm kiếm cây (24,1% VS 22,2%).

chỉ báo

Được sử dụng để đo lường hiệu suất tương đối của các giải pháp lập kế hoạch và tìm kiếm cây dựa trên mô hình.

Bảng 3: Tỷ lệ thành công tương ứng với các chiều khác nhau

hiệu quả

Một ưu điểm quan trọng khác của việc lập kế hoạch dựa trên mô hình là hiệu quả của nó trong việc thực hiện nhiệm vụ liên quan đến tìm kiếm cây.

Như được hiển thị trong Bảng 4, tìm kiếm dạng cây yêu cầu số bước nhiều gấp khoảng ba lần so với đường cơ sở trong tất cả hoàn cảnh, trong khi số bước hành động tương ứng cho WebDreamer tương tự như đường cơ sở.

Điều đáng chú ý là tìm kiếm dạng cây gây ra độ trễ thời gian thực gấp khoảng mười lần do có thêm hành động và quay lui, trong khi chi phí mô phỏng của WebDreamer nhỏ và có thể giảm thêm bằng cách song song hóa nâng cao.

Bảng 4: Các bước hành động và tổng thời gian tiêu thụ trên VWA

nghiên cứu điển hình

Để minh họa vai trò của mô phỏng trong việc lập kế hoạch, các nhà nghiên cứu trình bày các nghiên cứu trường hợp bao gồm các ví dụ tích cực và tiêu cực về cách mô phỏng có thể giúp các tác nhân khám phá hoàn cảnh và cách mô phỏng không chính xác có thể dẫn đến dự đoán không chính xác.

Các lỗi do mô phỏng với mô hình thế giới được xây dựng không đầy đủ gây ra như sau:

Lời hướng dẫn mà nhà nghiên cứu đưa ra cho đại lý là: Hãy tìm cho tôi một chiếc máy in cùng nhãn hiệu với sản phẩm trong hình. Nó phải có màu trắng và có ít nhất 11 đánh giá với xếp hạng trung bình lớn hơn 4.

Các ví dụ tích cực về việc hưởng lợi từ mô phỏng mô hình thế giới như sau:

Trong trường hợp này, người đại diện đã tìm đúng hai chiếc áo sơ mi có hình chim ở mặt trước.

06 Giới thiệu tác giả

Yu Gu (Gu Yu)

Yu Gu là nghiên cứu sinh tiến sĩ tại Đại học Bang Ohio và trước đây đã nhận bằng cử nhân và thạc sĩ về khoa học máy tính tại Đại học Nam Kinh.

Boyuan Zheng

Boyuan Zheng hiện là nghiên cứu sinh tiến sĩ năm thứ nhất tại Đại học Bang Ohio, dưới sự hướng dẫn của Giáo sư Yu Su.

Trước đó, ông nhận bằng cử nhân về công nghệ phần mềm tại Đại học Northeastern và bằng thạc sĩ về khoa học máy tính tại Đại học Johns Hopkins, nơi ông làm việc với Giáo sư Benjamin Van Durme.

Trọng tâm nghiên cứu chính của ông là phát triển các tác nhân ngôn ngữ có thể giải phóng con người khỏi nhiệm vụ tẻ nhạt và hỗ trợ việc ra quyết định, đặc biệt là trong hoàn cảnh trực tuyến. Những thứ khác bao gồm đa phương thức, nền tảng, lập kế hoạch và lý luận, dữ liệu tổng hợp và bảo mật tác nhân.

Tham khảo:

https://arxiv.org/pdf/2411.06559

Bài viết này xuất phát từ tài khoản công khai WeChat "Xin Zhiyuan" , tác giả: Xinzhiyuan, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận