要約
拡散モデルは、生成モデリングの強力なフレームワークとして登場し、さまざまなタスクにわたって最先端のパフォーマンスを実現します。
ただし、トレーニングとサンプリングのギャップ、進行性ノイズ プロセスでの情報漏洩、トレーニング中の知覚損失や敵対的損失などの高度な損失関数を組み込むことができないなど、いくつかの固有の制限に直面しています。
これらの課題に対処するために、最終的な再構成出力を直接最適化することでトレーニングとサンプリングのプロセスを調整する、革新的なエンドツーエンドのトレーニング フレームワークを提案します。
私たちの方法は、トレーニングとサンプリングのギャップを排除し、トレーニングプロセスを純粋なノイズからターゲットデータ分布への直接マッピングとして扱うことで情報漏洩を軽減し、知覚的損失と敵対的損失を目標に統合することを可能にします。
COCO30K や HW30K などのベンチマークに関する広範な実験により、当社のアプローチが一貫して従来の拡散モデルを上回り、サンプリング ステップを減らした場合でも FID および CLIP スコアの点で優れた結果が得られることが実証されました。
これらの発見は、より堅牢で効率的なソリューションに向けて拡散ベースの生成モデルを前進させるためのエンドツーエンドのトレーニングの可能性を強調しています。
要約(オリジナル)
Diffusion models have emerged as a powerful framework for generative modeling, achieving state-of-the-art performance across various tasks. However, they face several inherent limitations, including a training-sampling gap, information leakage in the progressive noising process, and the inability to incorporate advanced loss functions like perceptual and adversarial losses during training. To address these challenges, we propose an innovative end-to-end training framework that aligns the training and sampling processes by directly optimizing the final reconstruction output. Our method eliminates the training-sampling gap, mitigates information leakage by treating the training process as a direct mapping from pure noise to the target data distribution, and enables the integration of perceptual and adversarial losses into the objective. Extensive experiments on benchmarks such as COCO30K and HW30K demonstrate that our approach consistently outperforms traditional diffusion models, achieving superior results in terms of FID and CLIP score, even with reduced sampling steps. These findings highlight the potential of end-to-end training to advance diffusion-based generative models toward more robust and efficient solutions.
arxiv情報
著者 | Zhiyu Tan,WenXu Qian,Hesen Chen,Mengping Yang,Lei Chen,Hao Li |
発行日 | 2024-12-30 16:06:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google