Finding Structure in Language Models

要約

私たちが話したり、書いたり、聞いたりするとき、言語の文法の知識に基づいて予測を続けます。
驚くべきことに、子供たちはわずか数年でこの文法知識を習得し、これまで発声したことのない新しい構造を理解し、一般化できるようになります。
言語モデルは、文内の次の単語を段階的に予測することによって言語の表現を作成する強力なツールであり、近年、多大な社会的影響を与えています。
この論文の中心的な研究課題は、これらのモデルが人間と同様の文法構造を深く理解しているかどうかです。
この問題は、自然言語処理、言語学、解釈可能性の交差点にあります。
これに対処するために、大規模な言語モデルの複雑な性質についての理解を強化する新しい解釈可能性手法を開発します。
私たちは 3 つの方向から研究課題にアプローチします。
まず、人間の言語処理における文法構造を解明するための心理言語学の重要なパラダイムである構造プライミングを通じて、抽象的な言語情報の存在を調査します。
次に、形容詞の順序や負の極性項目などのさまざまな言語現象を調べ、モデルによるこれらの現象の理解と、モデルがトレーニングされたデータ分布を関連付けます。
最後に、複雑さが増すさまざまな合成言語を使用して言語モデルの階層構造を研究するための制御されたテストベッドを導入し、この構造のモデル化における機能相互作用の役割を調べます。
私たちの発見は、言語モデル表現に埋め込まれた文法知識の詳細な説明を提供し、計算手法を使用して基本的な言語の問題を調査するためのいくつかの方向性を提供します。

要約(オリジナル)

When we speak, write or listen, we continuously make predictions based on our knowledge of a language’s grammar. Remarkably, children acquire this grammatical knowledge within just a few years, enabling them to understand and generalise to novel constructions that have never been uttered before. Language models are powerful tools that create representations of language by incrementally predicting the next word in a sentence, and they have had a tremendous societal impact in recent years. The central research question of this thesis is whether these models possess a deep understanding of grammatical structure similar to that of humans. This question lies at the intersection of natural language processing, linguistics, and interpretability. To address it, we will develop novel interpretability techniques that enhance our understanding of the complex nature of large-scale language models. We approach our research question from three directions. First, we explore the presence of abstract linguistic information through structural priming, a key paradigm in psycholinguistics for uncovering grammatical structure in human language processing. Next, we examine various linguistic phenomena, such as adjective order and negative polarity items, and connect a model’s comprehension of these phenomena to the data distribution on which it was trained. Finally, we introduce a controlled testbed for studying hierarchical structure in language models using various synthetic languages of increasing complexity and examine the role of feature interactions in modelling this structure. Our findings offer a detailed account of the grammatical knowledge embedded in language model representations and provide several directions for investigating fundamental linguistic questions using computational methods.

arxiv情報

著者 Jaap Jumelet
発行日 2024-11-25 14:37:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク