DiffusionDialog: A Diffusion Model for Diverse Dialog Generation with Latent Space

要約

現実の会話ではその内容は多様であり、多様な世代を必要とする1対多の問題が存在します。
以前の研究では、1 対多の問題に対処するために離散またはガウスベースの連続潜在変数を導入しようとしましたが、多様性には限界がありました。
最近、拡散モデルがコンピュータ ビジョンで画期的な進歩を遂げ、自然言語処理でもいくつかの試みが行われています。
この論文では、拡散モデルを利用して対話生成の多様性を高める新しいアプローチである DiffusionDialog を提案します。
私たちのアプローチでは、連続的な潜在変数を拡散モデルに導入します。
ダイアログタスクで潜在変数を使用する場合の問題は、潜在空間の効果的な事前分布と、コンテキストが与えられた適切な潜在を取得するための推論プロセスの両方をどのように構築するかということです。
エンコーダと潜在ベースの拡散モデルを組み合わせることで、固定ガウス分布や単純な離散分布ではなく、応答の潜在表現を事前分布として連続空間にエンコードします。
次に、拡散モデルを使用して段階的にノイズを除去することで潜在的なものを推測します。
実験結果は、私たちのモデルが一貫性を維持しながら対話応答の多様性を大幅に強化することを示しています。
さらに、さらなる分析により、拡散モデルが高い推論効率を達成していることがわかりました。これは、自然言語処理に拡散モデルを適用する際の主な課題です。

要約(オリジナル)

In real-life conversations, the content is diverse, and there exists the one-to-many problem that requires diverse generation. Previous studies attempted to introduce discrete or Gaussian-based continuous latent variables to address the one-to-many problem, but the diversity is limited. Recently, diffusion models have made breakthroughs in computer vision, and some attempts have been made in natural language processing. In this paper, we propose DiffusionDialog, a novel approach to enhance the diversity of dialogue generation with the help of diffusion model. In our approach, we introduce continuous latent variables into the diffusion model. The problem of using latent variables in the dialog task is how to build both an effective prior of the latent space and an inferring process to obtain the proper latent given the context. By combining the encoder and latent-based diffusion model, we encode the response’s latent representation in a continuous space as the prior, instead of fixed Gaussian distribution or simply discrete ones. We then infer the latent by denoising step by step with the diffusion model. The experimental results show that our model greatly enhances the diversity of dialog responses while maintaining coherence. Furthermore, in further analysis, we find that our diffusion model achieves high inference efficiency, which is the main challenge of applying diffusion models in natural language processing.

arxiv情報

著者 Jianxiang Xiang,Zhenhua Liu,Haodong Liu,Yin Bai,Jia Cheng,Wenliang Chen
発行日 2024-04-10 05:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク