要約
言語モデル (LM) は、言語的に一貫したテキストを生成する際に顕著な熟練を示しており、人間の言語学習能力の理解との関連性についての議論を引き起こしています。
ただし、これらのモデルのトレーニング データと子供が受け取る言語入力の間には、大きなギャップが存在します。
LM は通常、桁違いに大きく、子供向けのスピーチとは根本的に異なるデータに基づいてトレーニングされます (Warstadt and Bowman, 2022; Warstadt et al., 2023; Frank, 2023a)。
この矛盾に対処するため、私たちの研究は、単一の子供の言語入力のサブセットに基づいて LM をトレーニングすることに焦点を当てています。
以前、Wang、Vong、Kim、Lake (2023) は、この設定で訓練された LM が構文的および意味論的な単語クラスターを形成し、特定の言語現象に対する感受性を発達させることができることを発見しましたが、彼らは LSTM と、たった 1 つの単一言語から訓練されたより単純なニューラル ネットワークのみを考慮していました。
子データセット。
ここでは、単一子の入力からの学習可能性の堅牢性を調べるために、5 つのデータセット (3 つの単一子データと 2 つのベースライン) で 6 つの異なるモデル アーキテクチャを体系的にトレーニングします。
単一の子のデータセットでトレーニングされたモデルは、以前の研究と一致する一貫した結果を示し、子供の言語入力のサブセットから意味のある構文的および意味論的な表現を形成する堅牢性を強調していることがわかりました。
要約(オリジナル)
Language models (LMs) have demonstrated remarkable proficiency in generating linguistically coherent text, sparking discussions about their relevance to understanding human language learnability. However, a significant gap exists between the training data for these models and the linguistic input a child receives. LMs are typically trained on data that is orders of magnitude larger and fundamentally different from child-directed speech (Warstadt and Bowman, 2022; Warstadt et al., 2023; Frank, 2023a). Addressing this discrepancy, our research focuses on training LMs on subsets of a single child’s linguistic input. Previously, Wang, Vong, Kim, and Lake (2023) found that LMs trained in this setting can form syntactic and semantic word clusters and develop sensitivity to certain linguistic phenomena, but they only considered LSTMs and simpler neural networks trained from just one single-child dataset. Here, to examine the robustness of learnability from single-child input, we systematically train six different model architectures on five datasets (3 single-child and 2 baselines). We find that the models trained on single-child datasets showed consistent results that matched with previous work, underscoring the robustness of forming meaningful syntactic and semantic representations from a subset of a child’s linguistic input.
arxiv情報
著者 | Yulu Qin,Wentao Wang,Brenden M. Lake |
発行日 | 2024-02-12 18:58:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google