Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns

要約

アテンション、特にスケーリングされたドット積アテンションは、自然言語にとって効果的であることが証明されていますが、任意の入れ子の深さの階層パターンを処理するメカニズムがないため、特定の構文構造を認識する能力が制限されます。
この欠点に対処するために、スタック アテンションを提案します。スタック アテンションは、コンテキストフリー言語 (CFL) との理論的なつながりにヒントを得て、スタックを組み込んだアテンション演算子です。
スタック アテンションは標準のアテンションに似ていますが、構文の監視を必要としない構文の潜在モデルを使用することを示します。
我々は 2 つのバリアントを提案します。1 つは決定論的プッシュダウン オートマトン (PDA) に関連するもの、もう 1 つは非決定論的 PDA に基づくもので、トランスフォーマーが任意の CFL を認識できるようにします。
スタック アテンションを備えたトランスフォーマーは、標準的なトランスフォーマーが苦労する CFL の学習に非常に効果的であり、理論的に最大の解析難易度を持つ CFL で強力な結果を達成できることを示します。
また、制約されたパラメータ予算の下で自然言語モデリングではスタック アテンションがより効果的であることも示し、機械翻訳の結果も含めます。

要約(オリジナル)

Attention, specifically scaled dot-product attention, has proven effective for natural language, but it does not have a mechanism for handling hierarchical patterns of arbitrary nesting depth, which limits its ability to recognize certain syntactic structures. To address this shortcoming, we propose stack attention: an attention operator that incorporates stacks, inspired by their theoretical connections to context-free languages (CFLs). We show that stack attention is analogous to standard attention, but with a latent model of syntax that requires no syntactic supervision. We propose two variants: one related to deterministic pushdown automata (PDAs) and one based on nondeterministic PDAs, which allows transformers to recognize arbitrary CFLs. We show that transformers with stack attention are very effective at learning CFLs that standard transformers struggle on, achieving strong results on a CFL with theoretically maximal parsing difficulty. We also show that stack attention is more effective at natural language modeling under a constrained parameter budget, and we include results on machine translation.

arxiv情報

著者 Brian DuSell,David Chiang
発行日 2024-01-24 16:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク