Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification

要約

偽の相関(ショートカット)への依存は、言語モデルの多くの成功の根底にあることが示されています。
以前の研究は、予測に影響を与える入力要素を特定することに焦点を当てていました。
モデルの意思決定メカニズム内で、ショートカットが実際にどのように処理されるかを調査します。
映画のレビューでは、結果に既知の影響を与える制御可能なショートカットとして俳優名を使用しています。
メカニズムの解釈可能性方法を使用し、ショートカットに焦点を当てた特定の注意ヘッドを特定します。
これらのヘッドは、完全な入力を処理する前に、モデルをラベルに向けてモデルを調整し、コンテキスト分析をバイパスする時期尚早の決定を効果的に行います。
これらの調査結果に基づいて、ヘッドベースのトークン属性(HTA)を導入します。これは、入力トークンに中間決定を追跡します。
HTAは、LLMSのショートカットの検出に効果的であり、ショートカット関連の注意ヘッドを選択的に非アクティブ化することにより、標的緩和を可能にすることを示します。

要約(オリジナル)

Reliance on spurious correlations (shortcuts) has been shown to underlie many of the successes of language models. Previous work focused on identifying the input elements that impact prediction. We investigate how shortcuts are actually processed within the model’s decision-making mechanism. We use actor names in movie reviews as controllable shortcuts with known impact on the outcome. We use mechanistic interpretability methods and identify specific attention heads that focus on shortcuts. These heads gear the model towards a label before processing the complete input, effectively making premature decisions that bypass contextual analysis. Based on these findings, we introduce Head-based Token Attribution (HTA), which traces intermediate decisions back to input tokens. We show that HTA is effective in detecting shortcuts in LLMs and enables targeted mitigation by selectively deactivating shortcut-related attention heads.

arxiv情報

著者 Leon Eshuijs,Shihan Wang,Antske Fokkens
発行日 2025-05-09 13:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク