Anthropic 模型可解釋團隊的研究員錄了一期播客
介紹了模型的可解釋性和模型安全的的關係,以及兩者為何重要
其中可解釋性的研究流程和一些我們常見的模型概念解釋比較有意思

Anthropic
@AnthropicAI
08-15
Join Anthropic interpretability researchers @thebasepoint, @mlpowered, and @Jack_W_Lindsey as they discuss looking into the mind of an AI model - and why it matters:

可解釋工具鏈的核心目標是繪製一張從「輸入提示 A」到「輸出文本 B」的完整“思維流程圖(flowchart)”。
研究流程主要分為五步:
數據採樣:向模型投餵多樣化提示(對話、代碼、詩歌等),記錄每一層激活。
特徵分解:利用聚類、稀疏編碼將上億維激活壓縮成可人類理解的「概念向量」。
概念標註:通過統計「何時點亮」的方法,為向量貼上“咖啡”“Golden Gate Bridge”“拍馬屁式讚美”等標籤。
因果乾預:人為增減激活強度,觀察輸出如何改變,以驗證標籤的因果性而非僅是相關性。
流程可視化:把多層概念依時間順序連線,形成人讀得懂的步驟圖,類似可追蹤代碼調用棧。
團隊將該系統比喻為“顯微鏡”,但也坦言顯微鏡 still 有極限:目前只能解釋約 20% 的決策路徑;大模型(Claude 4 級別)的規模更讓工具疲於奔命。
視頻裡面列舉了多條令人會心一笑的內部概念:
“拍馬屁式讚美(sycophantic praise)”:只要上下文出現過度恭維,某一簇神經元就高亮,驅動輸出“絕妙”“天才”等華麗辭藻。
Golden Gate Bridge 表徵:無論輸入是描述駕駛跨橋場景的文字,還是橋的圖片標註,甚至僅 “金門(Golden Gate)”的暗示,該向量皆被觸發,說明模型形成了跨模態、抽象且穩健的“地標”概念。
“6 + 9” 加法電路:凡遇到以 6 結尾與 9 結尾數字相加,無論在算式、參考文獻年份 (1959+6)、還是故事情節中的門牌號相加,都會走進同一條計算通路,證實模型使用的是“通用算子”而非死記硬背。
Bug Tracker:當閱讀代碼時,特定神經簇負責標記潛在錯誤並在後續回答中引用,顯示出“延遲呼應”能力。
這些案例共同反駁了“模型只是訓練數據記憶庫”的觀點:若僅靠記憶,模型不可能在從未見過的跨域場景中複用同一邏輯通路。
研究員進一步發現,模型在處理長篇故事人物關係時,會給首位出現的角色分配“編號概念”,其後所有動作、情緒均與該編號綁定,從而維持敘事一致性;此策略與人類“變量綁定”高度相似,卻是自發湧現。
重要的是,“驚奇概念”的背後揭示了“抽象梯度”:越大的模型,跨語言、跨任務共享的內部語義層越集中,最終形成“通用語義空間”,這解釋了為何 Claude 能在多語言中保持一致表現。
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





