Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior

要約

通常、モデルの動作は、コンポーネント、データ、またはトレーニングの軌跡に隔離されていると考えています。
これは、統一された見解を欠いており、重要な相互作用を見逃す可能性がある説明につながります。
既存の方法を組み合わせたり、さまざまなトレーニング段階で適用したりする一方で、より広範な洞察が得られますが、これらのアプローチには通常、理論的なサポートがありません。
この作業では、3つの視点すべてを統合する統合されたフレームワークである説明を提示します。
まず、グラデーションパスカーネルに関する最近の作業を一般化します。これは、勾配降下によってカーネルマシンとして訓練されたモデルをより現実的なトレーニング設定に再統合します。
経験的には、CNNモデルとトランスモデルの両方が、この再定式化によって正確に複製されることがわかります。
第二に、カーネル機能マップから新しいパラメーターと段階的な影響スコアを導き出します。
既存の方法に匹敵するパラメーター剪定におけるそれらの有効性を示し、モデルコンポーネントの属性の価値を強化します。
最後に、トレーニングプロセスでモデルコンポーネントとデータを共同で解釈すると、説明が活用してグローキングを示す変圧器を分析します。
とりわけ、私たちの調査結果は、以前に提案されたグローキングの段階をサポートしている一方で、記憶段階の後に学んだ表現パイプラインの周りの入力埋め込みと最終層のアラインメントの1つとして最終段階を改良します。
全体として、説明は、モデルの動作とトレーニングのダイナミクスを解釈するための理論的に根拠のある統合されたフレームワークを提供します。

要約(オリジナル)

Post-hoc interpretability methods typically attribute a model’s behavior to its components, data, or training trajectory in isolation. This leads to explanations that lack a unified view and may miss key interactions. While combining existing methods or applying them at different training stages offers broader insights, these approaches usually lack theoretical support. In this work, we present ExPLAIND, a unified framework that integrates all three perspectives. First, we generalize recent work on gradient path kernels, which reformulate models trained by gradient descent as a kernel machine, to more realistic training settings. Empirically, we find that both a CNN and a Transformer model are replicated accurately by this reformulation. Second, we derive novel parameter- and step-wise influence scores from the kernel feature maps. We show their effectiveness in parameter pruning that is comparable to existing methods, reinforcing their value for model component attribution. Finally, jointly interpreting model components and data over the training process, we leverage ExPLAIND to analyze a Transformer that exhibits Grokking. Among other things, our findings support previously proposed stages of Grokking, while refining the final phase as one of alignment of input embeddings and final layers around a representation pipeline learned after the memorization phase. Overall, ExPLAIND provides a theoretically grounded, unified framework to interpret model behavior and training dynamics.

arxiv情報

著者 Florian Eichin,Yupei Du,Philipp Mondorf,Barbara Plank,Michael A. Hedderich
発行日 2025-05-26 14:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク