要約
テキストから画像への拡散モデルの顕著な有効性により、ビデオ領域での潜在的な応用の広範な探求が動機付けられています。
ゼロショット手法は、モデルのトレーニングを必要とせずに画像拡散モデルをビデオに拡張しようとします。
最近の手法は主に、フレーム間の対応をアテンション メカニズムに組み込むことに焦点を当てています。
ただし、有効な特徴に注目する場所を決定する際に課されるソフト制約が不十分な場合があり、その結果、時間的な不整合が発生します。
この論文では、より堅牢な時空間制約を確立するために、フレーム間対応と並行してフレーム内対応である FRESCO を導入します。
この機能強化により、フレーム間で意味的に類似したコンテンツのより一貫した変換が保証されます。
単なる注意喚起を超えて、私たちのアプローチには、入力ビデオとの高い時空間一貫性を達成するための機能の明示的な更新が含まれており、結果として翻訳されたビデオの視覚的な一貫性が大幅に向上します。
広範な実験により、高品質で一貫性のあるビデオの生成における私たちの提案したフレームワークの有効性が実証され、既存のゼロショット手法に比べて顕著な改善が見られます。
要約(オリジナル)
The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.
arxiv情報
著者 | Shuai Yang,Yifan Zhou,Ziwei Liu,Chen Change Loy |
発行日 | 2024-03-19 17:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google