要約
既存のテキスト生成モデルのほとんどは、シーケンスツーシーケンスのパラダイムに従っています。
生成文法は、人間が言語文法を学習することによって自然言語テキストを生成することを示唆しています。
我々は、構成要素解析ツリーによってトップダウン方向にシーケンスを生成する、構文に基づいた生成スキーマを提案します。
デコードプロセスは 2 つの部分に分解できます。(1) ソース文に基づいて、語彙化された構文コンテキスト内の各構成要素の充填テキストを予測します。
(2) 各構成要素をマッピングおよび拡張して、次のレベルの構文コンテキストを構築します。
そこで、可能な構文構造を階層的に見つけるための構造ビーム探索法を提案します。
言い換え生成と機械翻訳の実験では、提案された方法が自己回帰ベースラインを上回るパフォーマンスを示すと同時に、解釈可能性、制御可能性、および多様性の点でも有効であることが示されました。
要約(オリジナル)
Most existing text generation models follow the sequence-to-sequence paradigm. Generative Grammar suggests that humans generate natural language texts by learning language grammar. We propose a syntax-guided generation schema, which generates the sequence guided by a constituency parse tree in a top-down direction. The decoding process can be decomposed into two parts: (1) predicting the infilling texts for each constituent in the lexicalized syntax context given the source sentence; (2) mapping and expanding each constituent to construct the next-level syntax context. Accordingly, we propose a structural beam search method to find possible syntax structures hierarchically. Experiments on paraphrase generation and machine translation show that the proposed method outperforms autoregressive baselines, while also demonstrating effectiveness in terms of interpretability, controllability, and diversity.
arxiv情報
著者 | Yafu Li,Leyang Cui,Jianhao Yan,Yongjng Yin,Wei Bi,Shuming Shi,Yue Zhang |
発行日 | 2023-06-20 12:16:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google