要約
ビデオの開始には、ビデオ内のローカル領域を変更し、空間的および時間的な一貫性を確保することが含まれます。
ほとんどの既存の方法は、主にシーンの完成(つまり、欠落している領域を埋める)に焦点を当てており、制御可能な方法で新しいオブジェクトをシーンに挿入する機能がありません。
幸いなことに、テキストからビデオへの最近の進歩(T2V)拡散モデルは、テキスト誘導ビデオの開始の道を開いています。
ただし、統合のためのT2Vモデルを直接適合させると、完了と挿入タスクの統一が制限され、入力制御可能性がなく、長いビデオとの闘いがあり、それにより適用可能性と柔軟性が制限されます。
これらの課題に対処するために、従来のシーンの完了と新しいオブジェクト挿入タスクの両方を処理できる統一されたマルチタスクビデオの開始フレームワークであるMTV-Inpaintを提案します。
これらの異なるタスクを統合するために、T2V拡散U-NETにデュアルブランチ空間的注意メカニズムを設計し、シーンの完成とオブジェクト挿入のシームレスな統合を単一のフレームワーク内に可能にします。
テキストガイダンスに加えて、MTV-Inpaintは、提案された画像からビデオからビデオへのインペインティングモードを介してモデルを入力するさまざまな画像を統合することにより、マルチモーダル制御をサポートします。
さらに、キーフレームの入力とその間のフレーム伝播を組み合わせた2段階のパイプラインを提案し、MTVインパインが数百のフレームで長いビデオを効果的に処理できるようにします。
広範な実験は、MTV-Inpaintがシーンの完了とオブジェクト挿入タスクの両方で最先端のパフォーマンスを達成することを示しています。
さらに、マルチモーダルのインペインティング、オブジェクトの編集、削除、画像オブジェクトブラシ、長いビデオを処理する機能などの派生アプリケーションの汎用性を示しています。
プロジェクトページ:https://mtv-inpaint.github.io/。
要約(オリジナル)
Video inpainting involves modifying local regions within a video, ensuring spatial and temporal consistency. Most existing methods focus primarily on scene completion (i.e., filling missing regions) and lack the capability to insert new objects into a scene in a controllable manner. Fortunately, recent advancements in text-to-video (T2V) diffusion models pave the way for text-guided video inpainting. However, directly adapting T2V models for inpainting remains limited in unifying completion and insertion tasks, lacks input controllability, and struggles with long videos, thereby restricting their applicability and flexibility. To address these challenges, we propose MTV-Inpaint, a unified multi-task video inpainting framework capable of handling both traditional scene completion and novel object insertion tasks. To unify these distinct tasks, we design a dual-branch spatial attention mechanism in the T2V diffusion U-Net, enabling seamless integration of scene completion and object insertion within a single framework. In addition to textual guidance, MTV-Inpaint supports multimodal control by integrating various image inpainting models through our proposed image-to-video (I2V) inpainting mode. Additionally, we propose a two-stage pipeline that combines keyframe inpainting with in-between frame propagation, enabling MTV-Inpaint to effectively handle long videos with hundreds of frames. Extensive experiments demonstrate that MTV-Inpaint achieves state-of-the-art performance in both scene completion and object insertion tasks. Furthermore, it demonstrates versatility in derived applications such as multi-modal inpainting, object editing, removal, image object brush, and the ability to handle long videos. Project page: https://mtv-inpaint.github.io/.
arxiv情報
著者 | Shiyuan Yang,Zheng Gu,Liang Hou,Xin Tao,Pengfei Wan,Xiaodong Chen,Jing Liao |
発行日 | 2025-03-14 13:54:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google