要約
ビデオ拡散モデル(VDMS)は、高品質のビデオの生成を促進し、現在の研究は、データの品質、計算リソース、モデルの複雑さの改善を通じて、トレーニング中のスケーリングの取り組みに主に集中しています。
ただし、推論時間スケーリングはあまり注目されておらず、ほとんどのアプローチはモデルを単一の世代の試みに制限しています。
最近の研究では、世代中のビデオ品質を向上させることができる「黄金の騒音」の存在が明らかになりました。
これに基づいて、より良いノイズ候補を識別するためにVDMSのスケーリング推論時間検索をガイドすることは、現在のステップで生成されたフレームの品質を評価するだけでなく、以前のマルチチャンクからのアンカーフレームを参照し、それによって長期的な価値を提供することにより、高レベルのオブジェクト機能を維持することがわかります。
我々の分析は、拡散モデルが、除去ステップを変化させることにより、計算の柔軟な調整を本質的に持っていること、さらには報酬信号に導かれた場合、1段階の除去アプローチでさえ、大きな長期的な利益をもたらすことを明らかにしています。
観察に基づいて、グローバルなコンテンツの一貫性と視覚的多様性を改善するために拡散サンプリングプロセスの黄金の初期ノイズを特定するプラグアンドプレイの推論時間検索戦略であるESSCALINGNOISEを提案します。
具体的には、初期ノイズをクリップに変換し、その後、その長期的な価値を評価し、以前に生成されたコンテンツによって固定された報酬モデルを活用して、ワンステップの除去を実行します。
さらに、多様性を維持するために、私たちは候補者を、重量を約束する音の傾斜分布からサンプリングします。
このようにして、ScalingNoiseはノイズ誘発エラーを大幅に減らし、よりコヒーレントで空間的に一貫したビデオ生成を確保します。
ベンチマークデータセットでの広範な実験は、提案されたScalingNoiseが長いビデオ生成を効果的に改善することを示しています。
要約(オリジナル)
Video diffusion models (VDMs) facilitate the generation of high-quality videos, with current research predominantly concentrated on scaling efforts during training through improvements in data quality, computational resources, and model complexity. However, inference-time scaling has received less attention, with most approaches restricting models to a single generation attempt. Recent studies have uncovered the existence of ‘golden noises’ that can enhance video quality during generation. Building on this, we find that guiding the scaling inference-time search of VDMs to identify better noise candidates not only evaluates the quality of the frames generated in the current step but also preserves the high-level object features by referencing the anchor frame from previous multi-chunks, thereby delivering long-term value. Our analysis reveals that diffusion models inherently possess flexible adjustments of computation by varying denoising steps, and even a one-step denoising approach, when guided by a reward signal, yields significant long-term benefits. Based on the observation, we proposeScalingNoise, a plug-and-play inference-time search strategy that identifies golden initial noises for the diffusion sampling process to improve global content consistency and visual diversity. Specifically, we perform one-step denoising to convert initial noises into a clip and subsequently evaluate its long-term value, leveraging a reward model anchored by previously generated content. Moreover, to preserve diversity, we sample candidates from a tilted noise distribution that up-weights promising noises. In this way, ScalingNoise significantly reduces noise-induced errors, ensuring more coherent and spatiotemporally consistent video generation. Extensive experiments on benchmark datasets demonstrate that the proposed ScalingNoise effectively improves long video generation.
arxiv情報
著者 | Haolin Yang,Feilong Tang,Ming Hu,Yulong Li,Junjie Guo,Yexin Liu,Zelin Peng,Junjun He,Zongyuan Ge,Imran Razzak |
発行日 | 2025-03-20 17:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google