How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech

要約

構文を習得するとき、子供たちは一貫して、競合する非階層的な可能性よりも階層的なルールを選択します。
この好みは階層構造に対する学習バイアスによるものなのでしょうか、それとも子供の言語入力における階層的手がかりと相互作用するより一般的なバイアスによるものでしょうか?
私たちは、階層的なバイアスのない 2 種類のニューラル ネットワークである LSTM とトランスフォーマーを、児童の言語入力と量と内容が類似したデータ (CHILDES コーパスからのテキスト) でトレーニングすることにより、これらの可能性を探ります。
次に、階層構造が重要な現象である英語の「はい/いいえ」の質問について、これらのモデルが学習した内容を評価します。
どちらのモデル タイプも、子供に向けられた音声の表面統計 (困惑度によって測定) を捕捉する点ではうまく機能しますが、正しい階層規則よりも誤った線形規則とより一貫性のある方法で一般化することがわかりました。
これらの結果は、テキストのみからの人間のような一般化には、標準的なニューラル ネットワーク アーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスが必要であることを示唆しています。

要約(オリジナル)

When acquiring syntax, children consistently choose hierarchical rules over competing non-hierarchical possibilities. Is this preference due to a learning bias for hierarchical structure, or due to more general biases that interact with hierarchical cues in children’s linguistic input? We explore these possibilities by training LSTMs and Transformers – two types of neural networks without a hierarchical bias – on data similar in quantity and content to children’s linguistic input: text from the CHILDES corpus. We then evaluate what these models have learned about English yes/no questions, a phenomenon for which hierarchical structure is crucial. We find that, though they perform well at capturing the surface statistics of child-directed speech (as measured by perplexity), both model types generalize in a way more consistent with an incorrect linear rule than the correct hierarchical rule. These results suggest that human-like generalization from text alone requires stronger biases than the general sequence-processing biases of standard neural network architectures.

arxiv情報

著者 Aditya Yedetore,Tal Linzen,Robert Frank,R. Thomas McCoy
発行日 2023-06-06 13:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク