要約
強い帰納的バイアスにより、少ないデータからの学習が可能になり、トレーニング分布の外での一般化に役立ちます。
Transformer などの一般的なニューラル アーキテクチャには、それ自体では seq2seq NLP タスクに対する強力な構造誘導バイアスがありません。
その結果、彼らはトレーニングの分布を超えた体系的な一般化に苦労しています。
大量のテキストで事前トレーニングされた場合でも、より長い入力を外挿します。
合成データの構造変換をシミュレートするために事前トレーニングすることで、構造誘導バイアスを seq2seq モデルに効率的に注入する方法を示します。
具体的には、有限状態トランスデューサー (FST) の説明に基づいて FST をシミュレートするように事前トレーニングすることで、トランスフォーマーに有限状態トランスデューサー (FST) に対する誘導バイアスを注入します。
私たちの実験は、私たちの方法が望ましい帰納的バイアスを与え、その結果、体系的な一般化が改善され、FST のようなタスクの少数ショット学習が向上することを示しています。
私たちの分析は、微調整されたモデルが、目に見えない基礎となる FST の状態ダイナミクスを正確に捉えていることを示しており、シミュレーション プロセスが微調整されたモデルによって内部化されていることを示唆しています。
要約(オリジナル)
Strong inductive biases enable learning from little data and help generalization outside of the training distribution. Popular neural architectures such as Transformers lack strong structural inductive biases for seq2seq NLP tasks on their own. Consequently, they struggle with systematic generalization beyond the training distribution, e.g. with extrapolating to longer inputs, even when pre-trained on large amounts of text. We show how a structural inductive bias can be efficiently injected into a seq2seq model by pre-training it to simulate structural transformations on synthetic data. Specifically, we inject an inductive bias towards Finite State Transducers (FSTs) into a Transformer by pre-training it to simulate FSTs given their descriptions. Our experiments show that our method imparts the desired inductive bias, resulting in improved systematic generalization and better few-shot learning for FST-like tasks. Our analysis shows that fine-tuned models accurately capture the state dynamics of the unseen underlying FSTs, suggesting that the simulation process is internalized by the fine-tuned model.
arxiv情報
著者 | Matthias Lindemann,Alexander Koller,Ivan Titov |
発行日 | 2024-02-16 16:49:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google