Is Child-Directed Speech Effective Training Data for Language Models?

要約

高性能の言語モデルは通常、数千億の単語でトレーニングされますが、人間の子供ははるかに少ない量のデータで流暢な言語ユーザーになります。
彼らが受け取るデータの特徴は何ですか?また、これらの特徴は言語モデリングの目標をどのようにサポートしますか?
この疑問を調査するために、2,900 万語の英語の子供向け音声と、一致する新しい合成データセット (TinyDialogues) で GPT-2 モデルをトレーニングし、BabyLM チャレンジからのデータセットの異種ブレンドと比較します。
私たちは、開発にインスピレーションを得た評価を使用して、これらのモデルの構文的知識と意味的知識の両方を評価します。
事前トレーニング実験を通じて、子供のトレーニング データのグローバルな発達順序付けまたはローカルな談話順序付けが他のデータセットと比較して高いパフォーマンスをサポートするかどうかをテストします。
データのローカル プロパティはモデルの結果に影響しますが、少し驚くべきことに、グローバル プロパティは影響しません。
さらに、子言語入力は、言語モデルのトレーニングにとって唯一の価値があるわけではありません。
これらの発見は、子供の学習は、より優れたデータに基づいて行われるのではなく、現在の言語モデリング技術よりも大幅に効率的であるという仮説を裏付けています。

要約(オリジナル)

While high-performing language models are typically trained on hundreds of billions of words, human children become fluent language users with a much smaller amount of data. What are the features of the data they receive, and how do these features support language modeling objectives? To investigate this question, we train GPT-2 models on 29M words of English-language child-directed speech and a new matched, synthetic dataset (TinyDialogues), comparing to a heterogeneous blend of datasets from the BabyLM challenge. We evaluate both the syntactic and semantic knowledge of these models using developmentally-inspired evaluations. Through pretraining experiments, we test whether the global developmental ordering or the local discourse ordering of children’s training data support high performance relative to other datasets. The local properties of the data affect model results, but somewhat surprisingly, global properties do not. Further, child language input is not uniquely valuable for training language models. These findings support the hypothesis that, rather than proceeding from better data, children’s learning is instead substantially more efficient than current language modeling techniques.

arxiv情報

著者 Steven Y. Feng,Noah D. Goodman,Michael C. Frank
発行日 2024-08-07 08:18:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク