avatar
Yohei
17,955 người theo dõi trên Twitter
Theo dõi
GP @UntappedVC. Artist: @pixelbeastsnft, @animalbuildings. Build-in-public log: http://yohei.me
Bài đăng
avatar
Yohei
03-25
Những mô hình cục bộ nào thực sự có thể xử lý việc gọi công cụ? Tôi đã xây dựng một khung để tìm hiểu. 15 kịch bản. 12 công cụ. Phản hồi giả lập. Nhiệt độ 0. Không chọn lọc. Đã kiểm tra mọi kích thước Qwen3.5 từ 0.8B đến 397B, và vì một số bạn đã hỏi sau các bài kiểm tra chưng cất: vâng, tôi cũng đã bao gồm Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled của Jackrong. Chỉ có hai mô hình hoạt động hoàn toàn tốt: mô hình 27B dày đặc và mô hình 27B đã chưng cất. Mô hình 397B? Thất bại hai bài kiểm tra. Mô hình 122B? Thất bại một. Mô hình 35B? Thất bại hai. Các kết quả hết thời gian — chủ yếu trên các mô hình nhỏ hơn, là các trường hợp mô hình bị kẹt trong một vòng lặp, lặp lại cùng một lệnh gọi công cụ cho đến khi đạt đến giới hạn 30 giây. Bài kiểm tra làm lộ ra nhiều mô hình nhất: "Tìm kiếm dân số của Iceland, sau đó tính 2% của nó." Đơn giản thôi, nhưng 35B, 122B và 397B đều sử dụng một con số làm tròn từ bộ nhớ thay vì kết quả tìm kiếm thực tế. Họ không tin tưởng vào kết quả đầu ra của công cụ của chính mình. Các mô hình nhỏ tạo ra dữ liệu ảo. Các mô hình lớn bỏ qua dữ liệu. Còn 27B thì chỉ đơn giản là xử lý nó một cách dễ dàng.
OPUS
1.39%
loading indicator
Loading..