Bài viết này được dịch máy
Xem bản gốc
Nhà nghiên cứu của đội ngũ mô hình Anthropic đã ghi lại một tập podcast
Giới thiệu mối quan hệ giữa tính khả giải thích của mô hình và an toàn mô hình, cũng như lý do tại sao cả hai đều quan trọng
Trong đó, quy trình nghiên cứu về tính khả giải thích và một số giải thích về các khái niệm mô hình thường gặp khá thú vị

Anthropic
@AnthropicAI
08-15
Join Anthropic interpretability researchers @thebasepoint, @mlpowered, and @Jack_W_Lindsey as they discuss looking into the mind of an AI model - and why it matters:

Mục tiêu cốt lõi của Chuỗi công cụ có thể giải thích được là vẽ một "sơ đồ" hoàn chỉnh từ "lời nhắc nhập A" đến "văn bản đầu ra B".
Quá trình nghiên cứu chủ yếu được chia thành năm bước:
Lấy mẫu dữ liệu: Cung cấp cho mô hình nhiều lời nhắc khác nhau (cuộc trò chuyện, mã, thơ, v.v.) và ghi lại hoạt động của từng lớp.
Phân tích tính năng: Sử dụng phân cụ và mã hóa thưa thớt để nén hàng trăm triệu kích hoạt theo chiều thành các "vectơ khái niệm" mà con người có thể hiểu được.
Gắn nhãn khái niệm: Bằng cách đếm phương pháp đèn bật, các vectơ được gắn nhãn như "cà phê", "Cầu Cổng Vàng" và "lời khen ngợi".
Thao tác nhân quả: tăng hoặc giảm cường độ kích hoạt một cách nhân tạo và quan sát cách đầu ra thay đổi để xác minh rằng nhãn có tính nhân quả chứ không chỉ tương quan.
Hình dung quy trình: Kết nối nhiều lớp khái niệm theo thứ tự thời gian để tạo thành sơ đồ từng bước mà mọi người có thể hiểu, tương tự như ngăn xếp lệnh gọi mã có thể theo dõi.
Đội ngũ cứu ví hệ thống này như một "kính hiển vi", nhưng thừa nhận rằng kính hiển vi vẫn có những hạn chế: hiện tại chúng chỉ có thể giải thích khoảng 20% các đường dẫn quyết định; và quy mô của các mô hình lớn (cấp độ Claude 4) khiến công cụ này trở nên quá tải.
Video liệt kê nhiều khái niệm nội tại khiến mọi người mỉm cười:
"Lời khen nịnh hót": Bất cứ khi nào có lời tâng bốc quá mức trong bối cảnh, một nhóm tế bào thần kinh sẽ sáng lên, thúc đẩy sản sinh ra những từ ngữ hoa mỹ như "tuyệt vời" và "thiên tài".
Biểu diễn Cầu Cổng Vàng: Vectơ này được kích hoạt bất kể đầu vào là văn bản mô tả cảnh lái xe qua cầu, hình ảnh có chú thích về cây cầu hay thậm chí chỉ là gợi ý về "Cổng Cổng Vàng", chứng minh rằng mô hình đã hình thành một khái niệm "địa danh" trừu tượng, mạnh mẽ và đa phương thức.
Mạch cộng "6 + 9": Bất cứ khi nào các số có tận cùng là 6 và 9 được cộng vào, cho dù trong một phương trình, năm tham khảo(1959 + 6) hay số nhà trong cốt truyện, phép tính đều tuân theo cùng một đường dẫn, xác nhận rằng mô hình sử dụng "toán tử phổ quát" thay vì ghi nhớ máy móc.
Trình theo dõi lỗi: Khi đọc mã, các cụm nơ-ron thần kinh cụ thể có trách nhiệm đánh dấu các lỗi tiềm ẩn và tham chiếu chúng trong các phản hồi tiếp theo, thể hiện khả năng "phản hồi trễ".
Những trường hợp này cùng nhau bác bỏ quan điểm cho rằng "mô hình chỉ là ký ức về dữ liệu đào tạo": nếu chỉ dựa vào trí nhớ, mô hình không thể tái sử dụng cùng một lộ trình logic trong các tình huống liên miền mà nó chưa từng thấy trước đây.
Các nhà nghiên cứu còn phát hiện ra rằng khi mô hình xử lý mối quan hệ giữa các nhân vật trong truyện dài, nó sẽ gán một "khái niệm số" cho nhân vật đầu tiên xuất hiện và mọi hành động và tâm lý tiếp theo đều gắn với con số đó để duy trì tính nhất quán của câu chuyện; chiến lược này rất giống với "liên kết biến số" của con người, nhưng nó xuất hiện một cách tự phát.
Điều quan trọng là "độ dốc trừu tượng" được tiết lộ đằng sau "khái niệm bất ngờ" này: mô hình càng lớn, lớp ngữ nghĩa bên trong được chia sẻ trên nhiều ngôn ngữ và nhiệm vụ càng tập trung, cuối cùng hình thành nên "không gian ngữ nghĩa chung", điều này giải thích tại sao Claude có thể duy trì hiệu suất nhất quán trong nhiều ngôn ngữ.
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan



