要約
トレーニング プロセス全体が微分可能ではないため、敵対的生成ネットワーク (GAN) のフレームワークの下でニューラル テキスト生成モデルを学習することは依然として困難な作業です。
既存のトレーニング戦略には、信頼性の低い勾配推定または不正確な文表現という問題があります。
スパースコーディングの原理に触発されて、意味解釈可能だがスパースな文表現を識別器への入力として生成する SparseGAN を提案します。
重要なアイデアは、埋め込み行列を過剰な辞書として扱い、ごく少数の選択された単語埋め込みの線形結合を使用して、各タイム ステップでのジェネレーターの出力特徴表現を近似するということです。
このようなセマンティックリッチな表現により、効率的な敵対的トレーニングのために不必要なノイズを削減するだけでなく、トレーニング プロセス全体を完全に微分可能にすることもできます。
複数のテキスト生成データセットを実験すると、特に BLEU などのシーケンス レベルのメトリクスでパフォーマンスが向上します。
要約(オリジナル)
It is still a challenging task to learn a neural text generation model under the framework of generative adversarial networks (GANs) since the entire training process is not differentiable. The existing training strategies either suffer from unreliable gradient estimations or imprecise sentence representations. Inspired by the principle of sparse coding, we propose a SparseGAN that generates semantic-interpretable, but sparse sentence representations as inputs to the discriminator. The key idea is that we treat an embedding matrix as an over-complete dictionary, and use a linear combination of very few selected word embeddings to approximate the output feature representation of the generator at each time step. With such semantic-rich representations, we not only reduce unnecessary noises for efficient adversarial training, but also make the entire training process fully differentiable. Experiments on multiple text generation datasets yield performance improvements, especially in sequence-level metrics, such as BLEU.
arxiv情報
著者 | Liping Yuan,Jiehang Zeng,Xiaoqing Zheng |
発行日 | 2023-07-24 06:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google