Injecting structural hints: Using language models to study inductive biases in language learning

要約

人間も大規模な言語モデルも、明示的な構造的監視なしで言語を学習できます。
この学習を可能にするのはどのような帰納的バイアスでしょうか?
私たちは、トランスフォーマー言語モデルを活用することで、この基本的な認知的疑問に取り組みます。形式的に構造化されたデータで事前トレーニングすることによって言語モデルに帰納的バイアスを注入し、その後、バイアスのかかった学習者の類型的に多様な自然言語を学習する能力を評価します。
私たちの実験設定は、人間の言語学習における帰納的バイアスに関する仮説のテストベッドを作成します。
私たちは、3 種類の帰納的バイアスをモデルに注入した場合の影響を調査します。1) 再帰的、階層的処理、2) 文脈自由文法ではモデル化できない交差するトークン間の関係、3) Zipfian べき乗則語彙分布

私たちは、コンテキストフリーではない関係が最良の帰納的バイアスを形成することを示します。
私たちの研究では、トランスフォーマー モデルの機能を活用して、人間では実行できない制御された言語学習実験を実行し、人間と機械の両方で言語学習を促進する構造に関する仮説を明らかにしました。

要約(オリジナル)

Both humans and large language models are able to learn language without explicit structural supervision. What inductive biases make this learning possible? We address this fundamental cognitive question by leveraging transformer language models: we inject inductive bias into language models by pretraining on formally-structured data, and then evaluate the biased learners’ ability to learn typologically-diverse natural languages. Our experimental setup creates a testbed for hypotheses about inductive bias in human language learning. We investigate the effect of injecting models with three types of inductive bias: 1) recursive, hierarchical processing, 2) crossing token-token relationships that can’t be modeled by context-free grammars, and 3) a Zipfian power-law vocabulary distribution. We show that non-context-free relationships form the best inductive biases. Our study leverages the capabilities of transformer models to run controlled language learning experiments that are not possible to run on humans, and surfaces hypotheses about the structures that facilitate language learning in both humans and machines.

arxiv情報

著者 Isabel Papadimitriou,Dan Jurafsky
発行日 2023-10-29 17:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク