要約
モデルは、少量のデータから効果的に学習し、訓練分布の外で系統的に汎化するために、適切な帰納バイアスを必要とする。Transformerは非常に汎用的で強力であるが、seq2seqタスク、特に能動態から受動態への変換や意味解析のような構文変換を伴うタスクでは、構造的帰納バイアスの強化が有効である。本論文では、変換の記述が与えられた係り受け木に対して、合成的に生成された構文変換を行うように中間的な事前学習を行うことで、Transformerの構造帰納バイアスを強化することを提案する。我々の実験により、チャンキングのような構文解析タスクの数ショット学習に役立ち、また意味解析の構造汎化を改善することが確認された。我々の分析は、中間的な事前学習が、どの構文変換がどのトークンに適用される必要があるかを追跡するアテンションヘッドにつながり、モデルが下流のタスクでこれらのアテンションヘッドを活用できることを示している。
要約(オリジナル)
Models need appropriate inductive biases to effectively learn from small amounts of data and generalize systematically outside of the training distribution. While Transformers are highly versatile and powerful, they can still benefit from enhanced structural inductive biases for seq2seq tasks, especially those involving syntactic transformations, such as converting active to passive voice or semantic parsing. In this paper, we propose to strengthen the structural inductive bias of a Transformer by intermediate pre-training to perform synthetically generated syntactic transformations of dependency trees given a description of the transformation. Our experiments confirm that this helps with few-shot learning of syntactic tasks such as chunking, and also improves structural generalization for semantic parsing. Our analysis shows that the intermediate pre-training leads to attention heads that keep track of which syntactic transformation needs to be applied to which token, and that the model can leverage these attention heads on downstream tasks.
arxiv情報
著者 | Matthias Lindemann,Alexander Koller,Ivan Titov |
発行日 | 2024-07-05 14:29:44+00:00 |
arxivサイト | arxiv_id(pdf) |