DINOISER: Diffused Conditional Sequence Learning by Manipulating Noises

要約

拡散モデルは、画像や音声などの連続信号の生成では大きな成功を収めてきましたが、自然言語のような離散シーケンス データの学習では、拡散モデルは依然としてとらえどころがありません。
最近の進歩では、離散トークンを連続サロゲートとして埋め込むことで、この離散性の課題を回避していますが、依然として満足のいく生成品質には達していません。
これを理解するために、まず拡散ベースのシーケンス生成モデルのノイズ除去トレーニング プロトコルを深く掘り下げ、その 3 つの深刻な問題、つまり 1) 学習の失敗、2) スケーラビリティの欠如、3) ソース条件の無視を特定します。
我々は、これらの問題は、埋め込み空間の離散性が完全に除去されていないという落とし穴に帰着する可能性があり、ここではノイズの規模が決定的であると主張します。
この論文では、ノイズを操作してシーケンス生成のための拡散モデルを容易にする DINOISER を紹介します。
私たちは、逆離散性トレーニングのためにサンプリングされたノイズ スケールの範囲を適応的に決定することを提案します。
そして、提案された拡散系列学習器が、推論中に増幅されたノイズ スケールを持つソース条件を活用することを奨励します。
実験の結果、DINOISER は、効果的なトレーニングと推論戦略の両方のおかげで、いくつかの条件付きシーケンス モデリング ベンチマークにおいて、以前の拡散ベースのシーケンス生成モデルのベースラインを上回る一貫した改善を可能にすることが示されています。
さらに分析により、DINOISER がソース条件をより有効に活用して生成プロセスを制御できることが確認されました。

要約(オリジナル)

While diffusion models have achieved great success in generating continuous signals such as images and audio, it remains elusive for diffusion models in learning discrete sequence data like natural languages. Although recent advances circumvent this challenge of discreteness by embedding discrete tokens as continuous surrogates, they still fall short of satisfactory generation quality. To understand this, we first dive deep into the denoised training protocol of diffusion-based sequence generative models and determine their three severe problems, i.e., 1) failing to learn, 2) lack of scalability, and 3) neglecting source conditions. We argue that these problems can be boiled down to the pitfall of the not completely eliminated discreteness in the embedding space, and the scale of noises is decisive herein. In this paper, we introduce DINOISER to facilitate diffusion models for sequence generation by manipulating noises. We propose to adaptively determine the range of sampled noise scales for counter-discreteness training; and encourage the proposed diffused sequence learner to leverage source conditions with amplified noise scales during inference. Experiments show that DINOISER enables consistent improvement over the baselines of previous diffusion-based sequence generative models on several conditional sequence modeling benchmarks thanks to both effective training and inference strategies. Analyses further verify that DINOISER can make better use of source conditions to govern its generative process.

arxiv情報

著者 Jiasheng Ye,Zaixiang Zheng,Yu Bao,Lihua Qian,Mingxuan Wang
発行日 2024-05-01 02:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク