Mechanistic Interpretability of Fine-Tuned Vision Transformers on Distorted Images: Decoding Attention Head Behavior for Transparent and Trustworthy AI

要約

メカニズムの解釈可能性は、大規模なAIモデルの安全性、信頼性、堅牢性を向上させます。
この研究では、非関連コンテンツ(軸ラベル、タイトル、カラーバー)を含む歪んだ2Dスペクトログラム画像で微調整された視覚変圧器(VITS)の個々の注意ヘッドを調べました。
外部の機能を導入することにより、この調査では、変圧器コンポーネントが無関係な情報を処理する方法を分析し、機械的解釈性を使用して問題をデバッグし、トランスアーキテクチャの洞察を明らかにしました。
注意マップは、レイヤー全体で頭の寄与を評価しました。
初期層のヘッド(1〜3)は、AblationがMSE損失をわずかに増加させることで最小限のタスクへの影響を示しました({\ mu} = 0.11%、{\ sigma} = 0.09%)。
対照的に、より深い頭(例えば、レイヤー6)は、3倍の損失の増加を引き起こしました({\ mu} = 0.34%、{\ sigma} = 0.02%)。
中間層(6〜11)は、Chirp地域のみに参加する単一態度の行動を示しました。
いくつかの初期の頭(1〜4)は、単一系ではあるが非タスクに関連するものでした(テキスト検出器、エッジまたはコーナー検出器など)。
注意マップは、ポリスマンティックヘッド(複数の無関係な領域)からモノセマンティックヘッド(正確なチャープローカリゼーション)を区別しました。
これらの調査結果は、vitsの機能的専門化を明らかにし、ヘッドが関連する情報と外部情報をどのように処理したかを示しています。
変圧器を解釈可能なコンポーネントに分解することにより、この作業はモデルの理解を強化し、脆弱性を特定し、より安全で、より透明なAIを識別しました。

要約(オリジナル)

Mechanistic interpretability improves the safety, reliability, and robustness of large AI models. This study examined individual attention heads in vision transformers (ViTs) fine tuned on distorted 2D spectrogram images containing non relevant content (axis labels, titles, color bars). By introducing extraneous features, the study analyzed how transformer components processed unrelated information, using mechanistic interpretability to debug issues and reveal insights into transformer architectures. Attention maps assessed head contributions across layers. Heads in early layers (1 to 3) showed minimal task impact with ablation increased MSE loss slightly ({\mu}=0.11%, {\sigma}=0.09%), indicating focus on less critical low level features. In contrast, deeper heads (e.g., layer 6) caused a threefold higher loss increase ({\mu}=0.34%, {\sigma}=0.02%), demonstrating greater task importance. Intermediate layers (6 to 11) exhibited monosemantic behavior, attending exclusively to chirp regions. Some early heads (1 to 4) were monosemantic but non task relevant (e.g. text detectors, edge or corner detectors). Attention maps distinguished monosemantic heads (precise chirp localization) from polysemantic heads (multiple irrelevant regions). These findings revealed functional specialization in ViTs, showing how heads processed relevant vs. extraneous information. By decomposing transformers into interpretable components, this work enhanced model understanding, identified vulnerabilities, and advanced safer, more transparent AI.

arxiv情報

著者 Nooshin Bahador
発行日 2025-03-24 15:11:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク