Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion

要約

拡散モデルを使用したテキストから画像への (T2I) 生成の最近の進歩により、事前トレーニングされたモデルを活用することでコスト効率の高いビデオ編集アプリケーションが可能になり、リソースを大量に消費するトレーニングの必要性がなくなりました。
ただし、T2I 生成のフレーム非依存性により、時間的な一貫性が低下することがよくあります。
既存の方法は、時間層の微調整または推論ベースの時間伝播を通じてこの問題に対処しますが、これらのアプローチには、トレーニング コストが高いか、時間的コヒーレンスが限られているという問題があります。
これらの課題に対処するために、時間空間的および意味論的な一貫性とバリテラル DDIM 逆変換を統合する汎用効率アダプター (GE アダプター) を提案します。
このフレームワークには、次の 3 つの重要なコンポーネントが導入されています。(1) フレーム固有の特徴をキャプチャし、時間的に認識した損失関数によってスムーズなフレーム間遷移を強制するフレームベースの時間的整合性ブロック (FTC ブロック)。
(2) ノイズとアーティファクトを低減することで空間コヒーレンスを強化するバイラテラル フィルターを使用するチャネル依存の空間整合性ブロック (SCD ブロック)。
(3) 共有プロンプト トークンとフレーム固有のトークンを使用してセマンティック整合性を維持するためのトークンベースのセマンティック一貫性モジュール (TSC モジュール)。
MSR-VTT データセットで実証されているように、私たちの方法は知覚品質、テキストと画像の位置合わせ、および時間的一貫性を大幅に向上させます。
さらに、忠実度の向上とフレーム間のコヒーレンスを実現し、T2V 編集の実用的なソリューションを提供します。

要約(オリジナル)

Recent advancements in text-to-image (T2I) generation using diffusion models have enabled cost-effective video-editing applications by leveraging pre-trained models, eliminating the need for resource-intensive training. However, the frame-independence of T2I generation often results in poor temporal consistency. Existing methods address this issue through temporal layer fine-tuning or inference-based temporal propagation, but these approaches suffer from high training costs or limited temporal coherence. To address these challenges, we propose a General and Efficient Adapter (GE-Adapter) that integrates temporal-spatial and semantic consistency with Baliteral DDIM inversion. This framework introduces three key components: (1) Frame-based Temporal Consistency Blocks (FTC Blocks) to capture frame-specific features and enforce smooth inter-frame transitions via temporally-aware loss functions; (2) Channel-dependent Spatial Consistency Blocks (SCD Blocks) employing bilateral filters to enhance spatial coherence by reducing noise and artifacts; and (3) Token-based Semantic Consistency Module (TSC Module) to maintain semantic alignment using shared prompt tokens and frame-specific tokens. Our method significantly improves perceptual quality, text-image alignment, and temporal coherence, as demonstrated on the MSR-VTT dataset. Additionally, it achieves enhanced fidelity and frame-to-frame coherence, offering a practical solution for T2V editing.

arxiv情報

著者 Yangfan He,Sida Li,Kun Li,Jianhui Wang,Binxu Li,Tianyu Shi,Jun Yin,Miao Zhang,Xueqian Wang
発行日 2025-01-08 16:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク