Can Language Models Induce Grammatical Knowledge from Indirect Evidence?

要約

文の受容性を判断するための文法知識を誘導する言語モデルには、どのような種類の、どれだけのデータが必要ですか?
最近の言語モデルには、人間と比較してデータ効率を向上させる余地がまだ多くあります。
この論文では、言語モデルが文章の受け入れ可能性を推測する間接データ (間接証拠) を効率的に使用しているかどうかを調査します。
対照的に、人間は間接的な証拠を効率的に使用します。これは、効率的な言語習得に寄与する帰納的バイアスの 1 つであると考えられています。
この疑問を探るために、トレーニング前データに挿入されたトレーニング インスタンスと評価インスタンスで構成されるデータセットである Wug InDirect Evidence Test (WIDET) を紹介します。
新しく作成された wug 単語を含む合成インスタンスを事前トレーニング データに挿入し、それらの単語に関する文法的な許容性を評価する評価データに対するモデルの動作を調査します。
間接性と量のレベルを変えることによって、注入されたインスタンスを準備します。
私たちの実験は驚くべきことに、特定の言語現象における評価インスタンスと同じ構造を持つが語彙項目のみが異なるインスタンスに繰り返し曝露した後でも、言語モデルが文法知識を誘発しないことを示しています。
私たちの発見は、文法知識を誘導するために潜在的な間接証拠を使用するモデルを開発するという、将来の研究の潜在的な方向性を示唆しています。

要約(オリジナル)

What kinds of and how much data is necessary for language models to induce grammatical knowledge to judge sentence acceptability? Recent language models still have much room for improvement in their data efficiency compared to humans. This paper investigates whether language models efficiently use indirect data (indirect evidence), from which they infer sentence acceptability. In contrast, humans use indirect evidence efficiently, which is considered one of the inductive biases contributing to efficient language acquisition. To explore this question, we introduce the Wug InDirect Evidence Test (WIDET), a dataset consisting of training instances inserted into the pre-training data and evaluation instances. We inject synthetic instances with newly coined wug words into pretraining data and explore the model’s behavior on evaluation data that assesses grammatical acceptability regarding those words. We prepare the injected instances by varying their levels of indirectness and quantity. Our experiments surprisingly show that language models do not induce grammatical knowledge even after repeated exposure to instances with the same structure but differing only in lexical items from evaluation instances in certain language phenomena. Our findings suggest a potential direction for future research: developing models that use latent indirect evidence to induce grammatical knowledge.

arxiv情報

著者 Miyu Oba,Yohei Oseki,Akiyo Fukatsu,Akari Haga,Hiroki Ouchi,Taro Watanabe,Saku Sugawara
発行日 2024-10-23 12:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク