要約
言語モデルは、複雑な決定を下すことでさまざまなタスクに優れていますが、これらの決定の背後にある理論的根拠を理解することは依然として課題です。
このペーパーでは、次の単語の予測タスクに焦点を当てた言語モデルで、\ emph {data-centric解釈可能性}を調査します。
代表者の定理を使用して、特定の予測を促進または阻害する2つのタイプの\ emph {サポートサンプル}を特定します。
私たちの調査結果は、サポートサンプルであることは本質的なプロパティであり、トレーニングが始まる前であっても予測可能であることを明らかにしています。
さらに、非サポートサンプルは直接的な予測ではあまり影響力がありませんが、一般化と表現学習の過剰適合と形成を防ぐ上で重要な役割を果たします。
特に、非サポートサンプルの重要性はより深い層で増加し、中間表現形成における重要な役割を示唆しています。これらの洞察は、データとモデルの決定の相互作用に光を当て、言語モデルの行動と解釈性を理解するための新しい次元を提供します。
要約(オリジナル)
Language models excel in various tasks by making complex decisions, yet understanding the rationale behind these decisions remains a challenge. This paper investigates \emph{data-centric interpretability} in language models, focusing on the next-word prediction task. Using representer theorem, we identify two types of \emph{support samples}-those that either promote or deter specific predictions. Our findings reveal that being a support sample is an intrinsic property, predictable even before training begins. Additionally, while non-support samples are less influential in direct predictions, they play a critical role in preventing overfitting and shaping generalization and representation learning. Notably, the importance of non-support samples increases in deeper layers, suggesting their significant role in intermediate representation formation.These insights shed light on the interplay between data and model decisions, offering a new dimension to understanding language model behavior and interpretability.
arxiv情報
著者 | Yuqian Li,Yupei Du,Yufang Liu,Feifei Feng,Mou Xiao Feng,Yuanbin Wu |
発行日 | 2025-06-04 15:13:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google