要約
拡散モデルは、画像や音声などの連続信号の生成において大きな成功を収めていますが、自然言語などの離散シーケンス データの学習における拡散モデルは依然としてとらえどころのないものです。
最近の進歩は、離散トークンを連続サロゲートとして埋め込むことにより、この離散性の課題を回避していますが、それでも十分な生成品質には達していません。
これを理解するために、まず拡散ベースのシーケンス生成モデルのノイズ除去されたトレーニング プロトコルを深く掘り下げ、1) 学習の失敗、2) スケーラビリティの欠如、3) ソース条件の無視という 3 つの深刻な問題を特定します。
これらの問題は、埋め込み空間の離散性が完全に除去されていないという落とし穴に要約することができ、ここではノイズの規模が決定的であると主張します。
この論文では、ノイズを操作することでシーケンス生成の拡散モデルを容易にする DINOISER を紹介します。
カウンター離散性トレーニングのために、サンプリングされたノイズスケールの範囲を適応的に決定することを提案します。
提案された拡散シーケンス学習器が、推論中に増幅されたノイズスケールでソース条件を活用することを奨励します。
実験は、効果的なトレーニングと推論戦略の両方のおかげで、いくつかの条件付きシーケンス モデリング ベンチマークで、DINOISER が以前の拡散ベースのシーケンス生成モデルのベースラインを一貫して改善できることを示しています。
さらに分析を行うと、DINOISER がソース条件をより有効に利用して生成プロセスを管理できることが確認されます。
要約(オリジナル)
While diffusion models have achieved great success in generating continuous signals such as images and audio, it remains elusive for diffusion models in learning discrete sequence data like natural languages. Although recent advances circumvent this challenge of discreteness by embedding discrete tokens as continuous surrogates, they still fall short of satisfactory generation quality. To understand this, we first dive deep into the denoised training protocol of diffusion-based sequence generative models and determine their three severe problems, i.e., 1) failing to learn, 2) lack of scalability, and 3) neglecting source conditions. We argue that these problems can be boiled down to the pitfall of the not completely eliminated discreteness in the embedding space, and the scale of noises is decisive herein. In this paper, we introduce DINOISER to facilitate diffusion models for sequence generation by manipulating noises. We propose to adaptively determine the range of sampled noise scales for counter-discreteness training; and encourage the proposed diffused sequence learner to leverage source conditions with amplified noise scales during inference. Experiments show that DINOISER enables consistent improvement over the baselines of previous diffusion-based sequence generative models on several conditional sequence modeling benchmarks thanks to both effective training and inference strategies. Analyses further verify that DINOISER can make better use of source conditions to govern its generative process.
arxiv情報
著者 | Jiasheng Ye,Zaixiang Zheng,Yu Bao,Lihua Qian,Mingxuan Wang |
発行日 | 2023-02-20 15:14:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google