要約
最近、拡散ベースの生成モデルは、画像の生成と編集において目覚ましい成功を収めています。
ただし、ビデオ編集での使用には依然として重要な制限があります。
この文書では、強力な時間的および空間的一貫性を保証する、ゼロショット テキストベースのビデオ編集のための新しい方法である VidEdit を紹介します。
まず、アトラスベースの事前トレーニング済みのテキストから画像への拡散モデルを組み合わせて、トレーニング不要で効率的な編集方法を提供し、設計により時間的な滑らかさを実現することを提案します。
次に、既製のパノプティック セグメンタとエッジ検出器を活用し、それらの使用を条件付き拡散ベースのアトラス編集に適応させます。
これにより、元のビデオの構造を厳密に保持しながら、ターゲット領域の空間を細かく制御できます。
定量的および定性的な実験により、VidEdit は、セマンティックの忠実性、画像の保存、時間的一貫性のメトリクスに関して、DAVIS データセットに対する最先端の手法よりも優れたパフォーマンスを発揮することが示されています。
このフレームワークを使用すると、1 つのビデオの処理にかかる時間はわずか約 1 分で、独自のテキスト プロンプトに基づいて互換性のある複数の編集を生成できます。
プロジェクトの Web ページ (https://videdit.github.io)
要約(オリジナル)
Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, their use for video editing still faces important limitations. This paper introduces VidEdit, a novel method for zero-shot text-based video editing ensuring strong temporal and spatial consistency. Firstly, we propose to combine atlas-based and pre-trained text-to-image diffusion models to provide a training-free and efficient editing method, which by design fulfills temporal smoothness. Secondly, we leverage off-the-shelf panoptic segmenters along with edge detectors and adapt their use for conditioned diffusion-based atlas editing. This ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
arxiv情報
著者 | Paul Couairon,Clément Rambour,Jean-Emmanuel Haugeard,Nicolas Thome |
発行日 | 2023-12-08 15:37:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google