Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

要約

変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。
この作業では、モーション予測に焦点を当てて、隠された状態を分析し、推論で変更します。
線形調査を使用して、解釈可能な特徴が隠された状態に埋め込まれているかどうかを分析します。
私たちの実験は、高度な精度が高いことを明らかにし、機能的に重要な方向を持つ潜在的な空間の規則性を示しています。
これに基づいて、コントロールベクトルを適合させるために、対立する特徴を備えた隠された状態間の方向を使用します。
推論では、制御ベクトルを隠された状態に追加し、予測への影響を評価します。
驚くべきことに、このような変更により、予測の実現可能性が維持されます。
スパース自動エンコーダー(SAE)を使用して、コントロールベクトルをさらに洗練します。
これにより、コントロールベクトルをスケーリングすると、予測の線形変化が増えます。
当社のアプローチにより、機械的解釈と、無視できる計算オーバーヘッドを使用して、目に見えないデータセット特性に対するゼロショットの一般化が可能になります。

要約(オリジナル)

Transformer-based models generate hidden states that are difficult to interpret. In this work, we analyze hidden states and modify them at inference, with a focus on motion forecasting. We use linear probing to analyze whether interpretable features are embedded in hidden states. Our experiments reveal high probing accuracy, indicating latent space regularities with functionally important directions. Building on this, we use the directions between hidden states with opposing features to fit control vectors. At inference, we add our control vectors to hidden states and evaluate their impact on predictions. Remarkably, such modifications preserve the feasibility of predictions. We further refine our control vectors using sparse autoencoders (SAEs). This leads to more linear changes in predictions when scaling control vectors. Our approach enables mechanistic interpretation as well as zero-shot generalization to unseen dataset characteristics with negligible computational overhead.

arxiv情報

著者 Omer Sahin Tas,Royden Wagner
発行日 2025-03-20 12:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク