要約
自然言語における堅牢な一般化には、正確な構文表現が不可欠です。
最近の研究では、事前トレーニングにより、微調整後にタスクを実行するときに、不正確な線形特徴ではなく、階層構文特徴に依存するように言語モデルを学習できることが判明しました。
私たちは、階層構文一般化を促進する帰納的バイアスをエンコーダー デコーダー トランスフォーマーに与えるために、事前トレーニングのどの側面が重要であるかをテストします。
私たちは、アーキテクチャ上の特徴 (深さ、幅、パラメーターの数) に加えて、トレーニング前コーパスのジャンルとサイズに焦点を当て、質問形成と受動化という 2 つの構文変換タスク (両方とも英語) を使用して帰納的バイアスを診断します。
パラメーターの数だけでは階層的一般化を説明できないことがわかりました。モデルの深さはモデルの幅よりも大きな役割を果たします。
また、子供向け音声などの単純な言語での事前トレーニングは、Web テキストやウィキペディアに基づくより一般的なデータセットでの事前トレーニングよりも、桁違いに少ないデータを使用して階層バイアスを誘発することもわかりました。
これは、認知的にもっともらしい言語習得環境では、ニューラル言語モデルがこれまで考えられていたよりもデータ効率が高い可能性があることを示唆しています。
要約(オリジナル)
Accurate syntactic representations are essential for robust generalization in natural language. Recent work has found that pre-training can teach language models to rely on hierarchical syntactic features – as opposed to incorrect linear features – when performing tasks after fine-tuning. We test what aspects of pre-training are important for endowing encoder-decoder Transformers with an inductive bias that favors hierarchical syntactic generalizations. We focus on architectural features (depth, width, and number of parameters), as well as the genre and size of the pre-training corpus, diagnosing inductive biases using two syntactic transformation tasks: question formation and passivization, both in English. We find that the number of parameters alone does not explain hierarchical generalization: model depth plays greater role than model width. We also find that pre-training on simpler language, such as child-directed speech, induces a hierarchical bias using an order-of-magnitude less data than pre-training on more typical datasets based on web text or Wikipedia; this suggests that in cognitively plausible language acquisition settings, neural language models may be more data-efficient than previously thought.
arxiv情報
著者 | Aaron Mueller,Tal Linzen |
発行日 | 2023-05-31 14:38:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google