要約
一貫性トレーニング(CT)は最近、拡散モデルの有望な代替手段として浮上し、画像生成タスクで競争力のあるパフォーマンスを達成しています。
ただし、非蒸留の一貫性トレーニングは、多くの場合、高い変動と不安定性に苦しんでおり、そのトレーニングダイナミクスを分析および改善することは、研究の積極的な分野です。
この作業では、フローマッチングフレームワークに基づいて、新しいCTトレーニングアプローチを提案します。
私たちの主な貢献は、変分自動エンコーダー(VAE)のアーキテクチャに触発された訓練されたノイズ結合スキームです。
エンコーダーアーキテクチャとして実装されたデータ依存ノイズ排出モデルをトレーニングすることにより、この方法は、ノイズ間マッピングのジオメトリを間接的に学習できます。これは、代わりに古典的なCTでのフォワードプロセスの選択によって修正されます。
多様な画像データセット全体での経験的結果は、モデルがベースラインを上回り、CIFAR-10で最先端の(SOTA)非蒸留CT FIDを達成し、64ドルのImagenetでSOTAと同等のFIDを達成することで、大幅な生成的改善を示しています。
\ Times 64 $ 2段階の解像度。
私たちのコードは、https://github.com/sony/vctで入手できます。
要約(オリジナル)
Consistency Training (CT) has recently emerged as a promising alternative to diffusion models, achieving competitive performance in image generation tasks. However, non-distillation consistency training often suffers from high variance and instability, and analyzing and improving its training dynamics is an active area of research. In this work, we propose a novel CT training approach based on the Flow Matching framework. Our main contribution is a trained noise-coupling scheme inspired by the architecture of Variational Autoencoders (VAE). By training a data-dependent noise emission model implemented as an encoder architecture, our method can indirectly learn the geometry of the noise-to-data mapping, which is instead fixed by the choice of the forward process in classical CT. Empirical results across diverse image datasets show significant generative improvements, with our model outperforming baselines and achieving the state-of-the-art (SoTA) non-distillation CT FID on CIFAR-10, and attaining FID on par with SoTA on ImageNet at $64 \times 64$ resolution in 2-step generation. Our code is available at https://github.com/sony/vct .
arxiv情報
著者 | Gianluigi Silvestri,Luca Ambrogioni,Chieh-Hsin Lai,Yuhta Takida,Yuki Mitsufuji |
発行日 | 2025-02-25 13:38:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google