Word class representations spontaneously emerge in a deep neural network trained on next word prediction

要約

人間はどのようにして言語を習得するのでしょうか?最初の言語はそもそも習得できるのでしょうか?
これらの基本的な問題は、今でも熱く議論されています。
現代の言語学には、まったく正反対の答えを与える 2 つの主要な学派があります。
チョムスキーの普遍文法の理論によると、子供たちは言語環境で十分なデータにさらされていないため、言語を習得することはできません。
対照的に、言語の用法ベースのモデルは、言語構造と言語使用の間に深い関係があることを前提としています。
特に、文脈的精神処理と精神的表象は、あらゆるレベルでの実際の言語使用の複雑さを捉える認知能力を持っていると想定されています。
最たる例は構文、つまり、単語を文などのより大きな単位に組み立てる規則です。
通常、構文規則は単語クラスのシーケンスとして表現されます。
ただし、普遍的な文法によって暗示されるように単語クラスが生得的なものなのか、それとも使用法に基づくアプローチによって示唆されるように言語習得中に出現するのかは不明のままです。
ここでは、機械学習と自然言語処理の観点からこの問題に対処します。
特に、入力として連続した単語のシーケンスを提供して、次の単語を予測する人工ディープ ニューラル ネットワークをトレーニングしました。
続いて、ニューラル ネットワークの隠れ層に出現する活性化パターンを分析しました。
驚くべきことに、トレーニング中にニューラル ネットワークが構文規則や単語クラスに関する明示的な情報を受け取っていなくても、出力として予測される 10 番目の単語の単語クラスに従って、9 単語の入力シーケンスの内部表現がクラスター化されることがわかりました。
この驚くべき結果は、人間の脳でも、単語クラスなどの抽象的な表現カテゴリが、言語習得中の予測コーディングと処理の結果として自然に出現する可能性があることを示唆しています。

要約(オリジナル)

How do humans learn language, and can the first language be learned at all? These fundamental questions are still hotly debated. In contemporary linguistics, there are two major schools of thought that give completely opposite answers. According to Chomsky’s theory of universal grammar, language cannot be learned because children are not exposed to sufficient data in their linguistic environment. In contrast, usage-based models of language assume a profound relationship between language structure and language use. In particular, contextual mental processing and mental representations are assumed to have the cognitive capacity to capture the complexity of actual language use at all levels. The prime example is syntax, i.e., the rules by which words are assembled into larger units such as sentences. Typically, syntactic rules are expressed as sequences of word classes. However, it remains unclear whether word classes are innate, as implied by universal grammar, or whether they emerge during language acquisition, as suggested by usage-based approaches. Here, we address this issue from a machine learning and natural language processing perspective. In particular, we trained an artificial deep neural network on predicting the next word, provided sequences of consecutive words as input. Subsequently, we analyzed the emerging activation patterns in the hidden layers of the neural network. Strikingly, we find that the internal representations of nine-word input sequences cluster according to the word class of the tenth word to be predicted as output, even though the neural network did not receive any explicit information about syntactic rules or word classes during training. This surprising result suggests, that also in the human brain, abstract representational categories such as word classes may naturally emerge as a consequence of predictive coding and processing during language acquisition.

arxiv情報

著者 Kishore Surendra,Achim Schilling,Paul Stoewer,Andreas Maier,Patrick Krauss
発行日 2023-02-15 11:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク