Nondeterministic Stacks in Neural Networks

要約

タイトル:ニューラルネットワークにおける非決定性スタック

要約:

– 人間の言語は合成的な文法構造に満ちており、ニューラルネットワークは言語処理のコンピューターシステムの革新的な改善に貢献しているが、広く使われているニューラルネットワークのアーキテクチャには文法処理能力の限界がある。
– 従来の研究では、文法とスタックの理論的な関係に着想を得て、ニューラルネットワークにスタックデータ構造を追加することが提案されてきたが、これらの方法では、1つの構文解析しか追跡できない決定性スタックが使用されており、言語には順不同のスタックが必要な曖昧性が非常に多く存在する。
– 本論文では、ニューラルネットワークに非決定性スタックを組み込む方法を提案する。非決定性プッシュダウンオートマトンを効率的にシミュレートする差分可能なデータ構造を開発し、動的プログラミングアルゴリズムで指数関数の計算を表現する。このモジュールを2つの主要なアーキテクチャ、再帰ニューラルネットワーク(RNN)とtransformersに組み込み、彼らの形式的な認識力を任意の文脈自由言語に引き上げ、また決定的文脈自由言語でも訓練を助けることを示す。
– 実際に、非決定性スタックを備えたニューラルネットワークは、理論的に最大の解析難度を持つ言語を含む文脈自由言語を、以前のスタック増強モデルよりも効果的に学習することができる。
– RNNに非決定的スタックを追加すると、クロスシリアル依存関係を学習するなど、驚くべきパワフルな動作が可能になることを示している。
– 自然言語モデリングにおいて改善を示し、構文の一般化ベンチマークの分析を提供することで、より人間らしい文法を学習するシステムの構築に向けた重要な一歩を踏み出した。

要約(オリジナル)

Human language is full of compositional syntactic structures, and although neural networks have contributed to groundbreaking improvements in computer systems that process language, widely-used neural network architectures still exhibit limitations in their ability to process syntax. To address this issue, prior work has proposed adding stack data structures to neural networks, drawing inspiration from theoretical connections between syntax and stacks. However, these methods employ deterministic stacks that are designed to track one parse at a time, whereas syntactic ambiguity, which requires a nondeterministic stack to parse, is extremely common in language. In this dissertation, we remedy this discrepancy by proposing a method of incorporating nondeterministic stacks into neural networks. We develop a differentiable data structure that efficiently simulates a nondeterministic pushdown automaton, representing an exponential number of computations with a dynamic programming algorithm. We incorporate this module into two predominant architectures: recurrent neural networks (RNNs) and transformers. We show that this raises their formal recognition power to arbitrary context-free languages, and also aids training, even on deterministic context-free languages. Empirically, neural networks with nondeterministic stacks learn context-free languages much more effectively than prior stack-augmented models, including a language with theoretically maximal parsing difficulty. We also show that an RNN augmented with a nondeterminsitic stack is capable of surprisingly powerful behavior, such as learning cross-serial dependencies, a well-known non-context-free pattern. We demonstrate improvements on natural language modeling and provide analysis on a syntactic generalization benchmark. This work represents an important step toward building systems that learn to use syntax in more human-like fashion.

arxiv情報

著者 Brian DuSell
発行日 2023-04-25 16:00:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク