Analysis of Argument Structure Constructions in a Deep Recurrent Language Model

要約

言語および言語構造が脳内でどのように処理されるかを理解することは、認知計算神経科学における基本的な問題です。
この研究では、リカレント ニューラル言語モデルにおける引数構造構造 (ASC) の表現と処理を調査します。
私たちは、GPT-4 を使用して生成された 2000 文で構成されるカスタムメイドのデータセット上で長短期記憶 (LSTM) ネットワークをトレーニングしました。このデータセットは、推移的、二推移的、原因運動、結果的構造という 4 つの異なる ASC を表します。
多次元尺度法 (MDS) と t 分散確率的近傍埋め込み (t-SNE) を使用して LSTM モデルの隠れ層の内部活性化を分析し、文表現を視覚化しました。
一般化識別値 (GDV) は、これらの表現内のクラスター化の程度を定量化するために計算されました。
私たちの結果は、文表現がすべての隠れ層にわたって 4 つの ASC に対応する個別のクラスターを形成し、最も顕著なクラスター化が出力層の前の最後の隠れ層で観察されることを示しています。
これは、比較的単純な、脳に制約されたリカレント ニューラル ネットワークであっても、さまざまな構築タイプを効果的に区別できることを示しています。
これらの発見は、次の単語予測タスクで訓練されたリカレント言語モデルにおける単語クラスと構文規則表現の出現を実証した以前の研究と一致しています。
今後の研究では、より大きな言語モデルを使用してこれらの結果を検証し、連続音声知覚中に得られた神経画像データと比較することを目指しています。
この研究は、人間の脳における言語処理を反映する反復型ニューラル言語モデルの可能性を強調し、言語理解の基礎となる計算メカニズムと神経メカニズムについての貴重な洞察を提供します。

要約(オリジナル)

Understanding how language and linguistic constructions are processed in the brain is a fundamental question in cognitive computational neuroscience. In this study, we explore the representation and processing of Argument Structure Constructions (ASCs) in a recurrent neural language model. We trained a Long Short-Term Memory (LSTM) network on a custom-made dataset consisting of 2000 sentences, generated using GPT-4, representing four distinct ASCs: transitive, ditransitive, caused-motion, and resultative constructions. We analyzed the internal activations of the LSTM model’s hidden layers using Multidimensional Scaling (MDS) and t-Distributed Stochastic Neighbor Embedding (t-SNE) to visualize the sentence representations. The Generalized Discrimination Value (GDV) was calculated to quantify the degree of clustering within these representations. Our results show that sentence representations form distinct clusters corresponding to the four ASCs across all hidden layers, with the most pronounced clustering observed in the last hidden layer before the output layer. This indicates that even a relatively simple, brain-constrained recurrent neural network can effectively differentiate between various construction types. These findings are consistent with previous studies demonstrating the emergence of word class and syntax rule representations in recurrent language models trained on next word prediction tasks. In future work, we aim to validate these results using larger language models and compare them with neuroimaging data obtained during continuous speech perception. This study highlights the potential of recurrent neural language models to mirror linguistic processing in the human brain, providing valuable insights into the computational and neural mechanisms underlying language understanding.

arxiv情報

著者 Pegah Ramezani,Achim Schilling,Patrick Krauss
発行日 2024-08-06 09:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク