Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models

要約

Huebnerらによる独創的な研究。
(2021)英語の子供向け言語(CDL)で訓練された言語モデル(LMS)は、LMSが大量の大人向けの文書テキストで訓練されているため、同様の構文能力に達することができることを示し、CDLは一般的に使用されるインターネットでクローされたデータよりも効果的なLMトレーニング資料を提供できることを示唆しています。
ただし、言語、モデルタイプ、および評価設定を介したこれらの結果の一般化可能性は不明のままです。
これをテストし、2つのLM目標(マスクされた因果関係)、3つの言語(英語、フランス語、ドイツ語)、および3つの構文最小ペアベンチマークでCDLとウィキペディアでトレーニングされたモデルを比較してテストします。
これらのベンチマークでの結果は、CDLの一貫性のない利点を示しています。これは、ほとんどの場合、ウィキペディアモデルではアウトパフォームされています。
次に、以前のベンチマークでさまざまな欠点を特定し、周波数制御された設計を使用してトレーニングコーポラ間のバランスの取れた比較を可能にする新しいテスト方法であるFit-clamsを導入します。
最小限のペア評価と回帰分析により、CDLのトレーニングが構文を取得するためのより強力な一般化をもたらさないことを示し、構文能力を評価する際に周波数効果を制御することの重要性を強調します。

要約(オリジナル)

Seminal work by Huebner et al. (2021) showed that language models (LMs) trained on English Child-Directed Language (CDL) can reach similar syntactic abilities as LMs trained on much larger amounts of adult-directed written text, suggesting that CDL could provide more effective LM training material than the commonly used internet-crawled data. However, the generalizability of these results across languages, model types, and evaluation settings remains unclear. We test this by comparing models trained on CDL vs. Wikipedia across two LM objectives (masked and causal), three languages (English, French, German), and three syntactic minimal-pair benchmarks. Our results on these benchmarks show inconsistent benefits of CDL, which in most cases is outperformed by Wikipedia models. We then identify various shortcomings in previous benchmarks, and introduce a novel testing methodology, FIT-CLAMS, which uses a frequency-controlled design to enable balanced comparisons across training corpora. Through minimal pair evaluations and regression analysis we show that training on CDL does not yield stronger generalizations for acquiring syntax and highlight the importance of controlling for frequency effects when evaluating syntactic ability.

arxiv情報

著者 Francesca Padovani,Jaap Jumelet,Yevgen Matusevych,Arianna Bisazza
発行日 2025-05-29 17:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク