VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

要約

破損したビデオコンテンツを復元することを目的としたビデオInpaintingは、かなりの進歩を経験しています。
これらの進歩にもかかわらず、既存の方法は、光の流れと受容フィールドプライアーを通じてマスクされていない領域ピクセルを伝播するか、画像を拡張するモデルを一時的に拡張するかどうかにかかわらず、完全にマスクされたオブジェクトを生成する際の課題に直面するか、それぞれ1つのモデルでのバックグラウンドコンテキストの保存と前景生成の競合する目的のバランスを取ります。
これらの制限に対処するために、効率的なコンテキストエンコーダー(バックボーンパラメーターの6%のみを含む)を組み込んだ新しいデュアルストリームパラダイムVideoPainterを提案し、マスクされたビデオを処理し、バックボーンを認識したバックグラウンドコンテキストキューを任意の訓練を受けたビデオに注入します。
このアーキテクチャの分離は、重要な背景コンテキストの微妙な統合を可能にしながら、モデルの学習の複雑さを大幅に削減します。
また、あらゆる長さのビデオが開始され、実用的な適用性を大幅に向上させる、新しいターゲット領域IDの再サンプリング手法を紹介します。
さらに、現在のビジョン理解モデルを活用するスケーラブルなデータセットパイプラインを確立し、VPDATAとVPBenchを提供して、セグメンテーションベースのトレーニングと評価を促進し、390Kを超えるダイバーシップクリップでデートする最大のビデオであるデータセットとベンチマークを入力します。
パイプラインベースとしての開拓を使用して、ビデオ編集やビデオ編集ペアデータ生成など、競争力のあるパフォーマンス、および実用的な可能性を実証する下流アプリケーションも調査します。
広範な実験では、ビデオ品質、マスク地域の保存、テキストの一貫性など、8つの主要なメトリックにわたる、任意の長さのビデオの編集と編集の両方でVideoPainterの優れたパフォーマンスを示しています。

要約(オリジナル)

Video inpainting, which aims to restore corrupted video content, has experienced substantial progress. Despite these advances, existing methods, whether propagating unmasked region pixels through optical flow and receptive field priors, or extending image-inpainting models temporally, face challenges in generating fully masked objects or balancing the competing objectives of background context preservation and foreground generation in one model, respectively. To address these limitations, we propose a novel dual-stream paradigm VideoPainter that incorporates an efficient context encoder (comprising only 6% of the backbone parameters) to process masked videos and inject backbone-aware background contextual cues to any pre-trained video DiT, producing semantically consistent content in a plug-and-play manner. This architectural separation significantly reduces the model’s learning complexity while enabling nuanced integration of crucial background context. We also introduce a novel target region ID resampling technique that enables any-length video inpainting, greatly enhancing our practical applicability. Additionally, we establish a scalable dataset pipeline leveraging current vision understanding models, contributing VPData and VPBench to facilitate segmentation-based inpainting training and assessment, the largest video inpainting dataset and benchmark to date with over 390K diverse clips. Using inpainting as a pipeline basis, we also explore downstream applications including video editing and video editing pair data generation, demonstrating competitive performance and significant practical potential. Extensive experiments demonstrate VideoPainter’s superior performance in both any-length video inpainting and editing, across eight key metrics, including video quality, mask region preservation, and textual coherence.

arxiv情報

著者 Yuxuan Bian,Zhaoyang Zhang,Xuan Ju,Mingdeng Cao,Liangbin Xie,Ying Shan,Qiang Xu
発行日 2025-03-07 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク