要約
タイトル:SeqDiffuSeq:エンコーダーデコーダートランスフォーマーを用いたテキスト拡散
要約:
– 画像、音声、動画の生成において、新しい生成モデリングパラダイムである拡散モデルが大成功を収めている。
– しかし、テキストの離散的なカテゴリー性を考慮すると、拡散モデルを自然言語に拡張することは容易ではなく、テキスト拡散モデルはあまり研究されていない。
– Sequence-to-sequence テキスト生成は、自然言語処理の基本的なトピックの一つである。
– 本研究では、拡散モデルを Sequence-to-sequence テキスト生成に適用し、拡散モデルの優れた生成性能が自然言語ドメインに転移できるかどうかを探求する。
– SeqDiffuSeqは、テキスト拡散モデルであり、エンコーダーデコーダートランスフォーマーアーキテクチャを使用して、雑音除去関数をモデル化する。
– SeqDiffuSeqは、自己調整技術と新しい適応ノイズスケジュール技術を組み合わせて、生成品質を改善する。
– 適応ノイズスケジュールは、時間ステップで均等に雑音を除去する難しさを考慮し、異なる位置順序のトークンに対して独占的なノイズスケジュールを考慮している。
– 実験結果は、テキスト品質と推論時間の観点から、Sequence-to-sequence 生成において良好な性能を示している。
要約(オリジナル)
Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
arxiv情報
| 著者 | Hongyi Yuan,Zheng Yuan,Chuanqi Tan,Fei Huang,Songfang Huang |
| 発行日 | 2023-05-04 15:52:02+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI