Sometimes I am a Tree: Data Drives Unstable Hierarchical Generalization

要約

言語モデル (LM) は、他のニューラル ネットワークと同様に、表面レベルのパターンに基づくショートカット ヒューリスティックを好むことがよくあります。
LM はトレーニングの初期段階では N-gram モデルのように動作しますが、最終的には階層構文表現を学習して、配布外 (OOD) の文法規則を正しく適用する必要があります。
この研究では、英文法のケーススタディを使用して、複雑で多様なトレーニング データがどのようにモデルを駆動して OOD を一般化するかを調査します。
私たちは、ランダムな変動とトレーニングのダイナミクス、ルールの選択と記憶、データの多様性と複雑さの理解を統合するフレームワークを構築します。
我々は、これらの要因には微妙な違いがあり、中間レベルの多様性と複雑性がランダム シード間での一貫性のない動作や不安定なトレーニング ダイナミクスにつながることを示します。
私たちの調査結果は、汎化パターンの形成におけるトレーニング データの重要な役割を強調し、競合するモデル戦略がどのようにランダム シード間で一貫性のない汎化結果につながるかを明らかにしています。
コードは https://github.com/sunnytqin/concept_comp.git で入手できます。

要約(オリジナル)

Language models (LMs), like other neural networks, often favor shortcut heuristics based on surface-level patterns. Although LMs behave like n-gram models early in training, they must eventually learn hierarchical syntactic representations to correctly apply grammatical rules out-of-distribution (OOD). In this work, we use case studies of English grammar to explore how complex, diverse training data drives models to generalize OOD. We construct a framework that unifies our understanding of random variation with training dynamics, rule selection with memorization, and data diversity with complexity. We show that these factors are nuanced, and that intermediate levels of diversity and complexity lead to inconsistent behavior across random seeds and to unstable training dynamics. Our findings emphasize the critical role of training data in shaping generalization patterns and illuminate how competing model strategies lead to inconsistent generalization outcomes across random seeds. Code is available at https://github.com/sunnytqin/concept_comp.git.

arxiv情報

著者 Tian Qin,Naomi Saphra,David Alvarez-Melis
発行日 2024-12-17 18:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク