要約
拡散モデルは、画像、音声、ビデオなどの連続データ モダリティのモデル化では大きな成功を収めていますが、言語などの離散領域での使用は限定的です。
拡散を言語に適応させる最近の試みでは、既存の事前トレーニング済み言語モデルの代替として拡散が提示されています。
私たちは普及と既存の言語モデルを補完的なものとみなしています。
エンコーダ-デコーダ言語モデルを利用して、高品質の言語オートエンコーダを効率的に学習できることを実証します。
次に、連続拡散モデルが言語オートエンコーダーの潜在空間で学習できることを実証し、事前トレーニングされたデコーダーを使用して自然言語にデコードできる連続潜在表現をサンプリングできるようにします。
無条件、クラス条件付き、およびシーケンスからシーケンスへの言語生成に対するアプローチの有効性を検証します。
私たちは、複数の多様なデータセットにわたって、潜在言語拡散モデルが以前の拡散言語モデルよりも大幅に効果的であることを実証します。
要約(オリジナル)
Diffusion models have achieved great success in modeling continuous data modalities such as images, audio, and video, but have seen limited use in discrete domains such as language. Recent attempts to adapt diffusion to language have presented diffusion as an alternative to existing pretrained language models. We view diffusion and existing language models as complementary. We demonstrate that encoder-decoder language models can be utilized to efficiently learn high-quality language autoencoders. We then demonstrate that continuous diffusion models can be learned in the latent space of the language autoencoder, enabling us to sample continuous latent representations that can be decoded into natural language with the pretrained decoder. We validate the effectiveness of our approach for unconditional, class-conditional, and sequence-to-sequence language generation. We demonstrate across multiple diverse data sets that our latent language diffusion models are significantly more effective than previous diffusion language models.
arxiv情報
著者 | Justin Lovelace,Varsha Kishore,Chao Wan,Eliot Shekhtman,Kilian Q. Weinberger |
発行日 | 2023-11-07 15:35:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google