要約
拡散モデルは画像やビデオの生成に広く使用されていますが、反復生成プロセスは時間がかかり、膨大です。
既存の蒸留アプローチは、画像領域でワンステップ生成の可能性を示していますが、依然として大幅な品質低下に悩まされています。
この研究では、ワンステップビデオ生成のための拡散事前トレーニングに続く実際のデータに対する敵対的ポストトレーニング (APT) を提案します。
トレーニングの安定性と品質を向上させるために、近似 R1 正則化目標とともに、モデル アーキテクチャとトレーニング手順にいくつかの改善を導入しました。
経験的に、私たちの実験では、敵対的なポストトレーニングモデル Seaweed-APT が、単一の前方評価ステップを使用して、2 秒の 1280×720、24fps ビデオをリアルタイムで生成できることが示されています。
さらに、私たちのモデルは 1 ステップで 1024 ピクセルの画像を生成でき、最先端の方法に匹敵する品質を実現します。
要約(オリジナル)
The diffusion models are widely used for image and video generation, but their iterative generation process is slow and expansive. While existing distillation approaches have demonstrated the potential for one-step generation in the image domain, they still suffer from significant quality degradation. In this work, we propose Adversarial Post-Training (APT) against real data following diffusion pre-training for one-step video generation. To improve the training stability and quality, we introduce several improvements to the model architecture and training procedures, along with an approximated R1 regularization objective. Empirically, our experiments show that our adversarial post-trained model, Seaweed-APT, can generate 2-second, 1280×720, 24fps videos in real time using a single forward evaluation step. Additionally, our model is capable of generating 1024px images in a single step, achieving quality comparable to state-of-the-art methods.
arxiv情報
著者 | Shanchuan Lin,Xin Xia,Yuxi Ren,Ceyuan Yang,Xuefeng Xiao,Lu Jiang |
発行日 | 2025-01-14 18:51:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google