要約
タイトル:SeqDiffuSeq:シーケンス-シーケンス生成のためのエンコーダー-デコーダートランスフォーマーを備えたテキスト拡散モデル
要約:
– 拡散モデルは、画像、音声、映像生成において大きな成功を収めているが、テキストの離散カテゴリー性を考慮すると、連続的な拡散モデルを自然言語に拡張することは容易ではなく、テキスト拡散モデルは少なく研究されている。
– シーケンス-シーケンステキスト生成は、重要な自然言語処理のトピックの1つである。
– 本研究では、拡散モデルをシーケンス-シーケンステキスト生成に適用し、拡散モデルの優れた生成性能が自然言語領域に移転可能かどうかを探求する。
– SeqDiffuSeqは、シーケンス-シーケンス生成のためのテキスト拡散モデルであり、エンコーダー-デコーダートランスフォーマーアーキテクチャを使用してノイズ除去機能をモデル化する。
– SeqDiffuSeqは、自己条件技術と新たに提案された適応的ノイズスケジュール技術を組み合わせて、生成品質を向上させる。
– 適応的ノイズスケジュールは、ノイズの困難さを時系列に均等に分散させ、異なる位置順序のトークンに対して独占的なノイズスケジュールを考慮する。
– 実験結果は、テキスト品質と推論時間の観点から、シーケンス-シーケンス生成における良好な性能を示している。
要約(オリジナル)
Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
arxiv情報
著者 | Hongyi Yuan,Zheng Yuan,Chuanqi Tan,Fei Huang,Songfang Huang |
発行日 | 2023-05-03 07:43:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI