LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

要約

MAMBAなどの状態空間モデル(SSM)は、長いコンテキストシーケンスモデリングのためのトランスの効率的な代替品として浮上しています。
しかし、採用の拡大にもかかわらず、SSMには、注意ベースのアーキテクチャを理解し改善するために重要な解釈可能性ツールがありません。
最近の取り組みは、Mambaの内部メカニズムに関する洞察を提供しますが、トークンごとの貢献を明示的に分解することはなく、Mambaがレイヤー全体でシーケンスを選択的に処理する方法を理解するギャップを残します。
この作業では、MAMBA-1とMAMBA-2の両方の新しいトークンレベルの分解方法であるLATIMを紹介し、細粒の解釈可能性を可能にします。
機械の翻訳、コピー、検索ベースの世代など、多様なタスク全体で方法を広範囲に評価し、マンバのトークン間相互作用パターンを明らかにする際のその有効性を示しています。

要約(オリジナル)

State space models (SSMs), such as Mamba, have emerged as an efficient alternative to transformers for long-context sequence modeling. However, despite their growing adoption, SSMs lack the interpretability tools that have been crucial for understanding and improving attention-based architectures. While recent efforts provide insights into Mamba’s internal mechanisms, they do not explicitly decompose token-wise contributions, leaving gaps in understanding how Mamba selectively processes sequences across layers. In this work, we introduce LaTIM, a novel token-level decomposition method for both Mamba-1 and Mamba-2 that enables fine-grained interpretability. We extensively evaluate our method across diverse tasks, including machine translation, copying, and retrieval-based generation, demonstrating its effectiveness in revealing Mamba’s token-to-token interaction patterns.

arxiv情報

著者 Hugo Pitorro,Marcos Treviso
発行日 2025-02-21 17:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク