Using Shapley interactions to understand how models use structure

要約

言語は複雑に構造化されたシステムであり、NLP解釈可能性の重要な目標は、言語モデルがこの構造を内部的にどのように表現するかを理解するための方法論的洞察を提供することです。
この論文では、言語と音声モデルが入力を内部的に関連付けて構築する方法を調べるために、Shapley Taylor Interaction Indices(STII)を使用します。
ペアワイズShapleyの相互作用は、独立した影響を直線的に追加した場合にモデル出力を超えてモデルの出力に影響を与えるために2つの入力がどの程度連携するかを測定し、モデルが入力間の構造的相互作用をエンコードする方法を見て提供します。
モデルの相互作用パターンを、構文構造、非相続セマンティクス、および音声共力の3つの基礎となる言語構造に関連付けます。
自動回帰テキストモデルは、入力の構文的な近接性と相関する相互作用をエンコードし、自己回帰モデルとマスクされたモデルの両方が、非共動的なセマンティクスと慣用的なフレーズの非線形相互作用をエンコードすることがわかります。
私たちの音声結果は、隣接する子音が母音または近似に影響を与える可能性が高いペアに対して、入力がより絡み合っていることを示しており、モデルが離散音素表現を抽出するために必要な音声相互作用をコードすることを示しています。

要約(オリジナル)

Language is an intricately structured system, and a key goal of NLP interpretability is to provide methodological insights for understanding how language models represent this structure internally. In this paper, we use Shapley Taylor interaction indices (STII) in order to examine how language and speech models internally relate and structure their inputs. Pairwise Shapley interactions measure how much two inputs work together to influence model outputs beyond if we linearly added their independent influences, providing a view into how models encode structural interactions between inputs. We relate the interaction patterns in models to three underlying linguistic structures: syntactic structure, non-compositional semantics, and phonetic coarticulation. We find that autoregressive text models encode interactions that correlate with the syntactic proximity of inputs, and that both autoregressive and masked models encode nonlinear interactions in idiomatic phrases with non-compositional semantics. Our speech results show that inputs are more entangled for pairs where a neighboring consonant is likely to influence a vowel or approximant, showing that models encode the phonetic interaction needed for extracting discrete phonemic representations.

arxiv情報

著者 Divyansh Singhvi,Diganta Misra,Andrej Erkelens,Raghav Jain,Isabel Papadimitriou,Naomi Saphra
発行日 2025-06-11 14:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク