Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases

要約

正式な言語の前の言語モデルは、自然言語の獲得を改善できますが、正式な言語のどの機能が効果的な移転につながる誘導的なバイアスを与えるかは不明です。
言語学と複雑さの理論からの洞察に基づいて、正式な言語が自然言語で依存関係構造をキャプチャし、モデルアーキテクチャの計算制限内に残っている場合に効果的な転送が発生すると仮定します。
トランスに焦点を当てて、これらの両方のプロパティを備えた正式な言語は、言語モデルが他の言語と比較して自然言語で低い損失とより良い言語の一般化を達成できるようになることがわかります。
実際、フォーマルなと自然の言語に関する事前誘惑、またはトレーニングは、同じ量の自然言語よりも効率的に損失を減らします。
自然言語の約1.6bトークンで訓練された1Bパラメーター言語モデルの場合、前処理は同じ損失とより良い言語の一般化を達成し、33%のトークン予算を備えています。
また、正式な言語から自然言語へのクロスタスク転送の機械的証拠を示しています。正式な言語前削除中に獲得された注意ヘッドは、構文評価でのモデルのパフォーマンスに依然として重要です。

要約(オリジナル)

Pretraining language models on formal languages can improve their acquisition of natural language, but it is unclear which features of the formal language impart an inductive bias that leads to effective transfer. Drawing on insights from linguistics and complexity theory, we hypothesize that effective transfer occurs when the formal language both captures dependency structures in natural language and remains within the computational limitations of the model architecture. Focusing on transformers, we find that formal languages with both these properties enable language models to achieve lower loss on natural language and better linguistic generalization compared to other languages. In fact, pre-pretraining, or training on formal-then-natural language, reduces loss more efficiently than the same amount of natural language. For a 1B-parameter language model trained on roughly 1.6B tokens of natural language, pre-pretraining achieves the same loss and better linguistic generalization with a 33% smaller token budget. We also give mechanistic evidence of cross-task transfer from formal to natural language: attention heads acquired during formal language pretraining remain crucial for the model’s performance on syntactic evaluations.

arxiv情報

著者 Michael Y. Hu,Jackson Petty,Chuan Shi,William Merrill,Tal Linzen
発行日 2025-02-26 15:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク