要約
私たちは、ドキュメントが固定された繰り返しシーケンスで周期的に提示される、構造化された非 IID 設定におけるニューラル ネットワークのトレーニング ダイナミクスを調査します。
通常、ネットワークは一連のドキュメントをトレーニングするときに壊滅的な干渉を受けます。
しかし、この設定で逐次的に微調整される LLM の奇妙で注目すべき特性が発見されました。LLM は予期的な行動を示し、文書を忘れても再び文書に遭遇する前に回復します。
アーキテクチャがパラメータの数を増やすにつれて、動作が現れ、より堅牢になります。
包括的な実験と視覚化を通じて、構造化された環境での過剰パラメータ化されたネットワークのトレーニングに関する新しい洞察を明らかにします。
要約(オリジナル)
We explore the training dynamics of neural networks in a structured non-IID setting where documents are presented cyclically in a fixed, repeated sequence. Typically, networks suffer from catastrophic interference when training on a sequence of documents; however, we discover a curious and remarkable property of LLMs fine-tuned sequentially in this setting: they exhibit anticipatory behavior, recovering from the forgetting on documents before encountering them again. The behavior emerges and becomes more robust as the architecture scales up its number of parameters. Through comprehensive experiments and visualizations, we uncover new insights into training over-parameterized networks in structured environments.
arxiv情報
著者 | Yanlai Yang,Matt Jones,Michael C. Mozer,Mengye Ren |
発行日 | 2024-03-14 17:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google