DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing

要約

拡散ベースのビデオ編集における研究の目覚ましい進歩にもかかわらず、長距離の一貫性とフレーム単位の編集との間に矛盾があるため、既存の方法は短いビデオに限定されています。
最近のアプローチでは、ビデオ 2D 表現を導入してビデオ編集を画像編集にまで低下させることで、この課題に取り組もうとしています。
ただし、特に人間中心のビデオでは、大規模なモーションおよびビュー変更ビデオを処理する際に大きな困難に直面します。
このため、ビデオ編集の問題を 3D 空間編集タスクに緩和するために、人間中心のビデオ表現としてダイナミック ニューラル ラディアンス フィールド (NeRF) を導入する動機が生まれました。
そのため、編集は 3D 空間で実行でき、変形フィールドを介してビデオ全体に反映されます。
より細かく直接制御可能な編集を提供するために、一連の効果的な設計を備えた画像ベースの 3D 空間編集パイプラインを提案します。
これらには、2D パーソナライズされた拡散事前と 3D 拡散事前の両方からのマルチビュー マルチポーズ スコア蒸留サンプリング (SDS)、参照画像の再構成損失、テキスト ガイド付きローカル パーツの超解像度、および 3D 背景空間のスタイル転送が含まれます。
広範な実験により、DynVideo-E と呼ばれる私たちの方法は、人間の好みの観点から、2 つの困難なデータセットに対する SOTA アプローチよりも 50% ~ 95% という大幅なパフォーマンスを大幅に上回っていることが実証されました。
説得力のあるビデオの比較は、プロジェクト ページ https://showlab.github.io/DynVideo-E/ で提供されています。
私たちのコードとデータはコミュニティに公開されます。

要約(オリジナル)

Despite remarkable research advances in diffusion-based video editing, existing methods are limited to short-length videos due to the contradiction between long-range consistency and frame-wise editing. Recent approaches attempt to tackle this challenge by introducing video-2D representations to degrade video editing to image editing. However, they encounter significant difficulties in handling large-scale motion- and view-change videos especially for human-centric videos. This motivates us to introduce the dynamic Neural Radiance Fields (NeRF) as the human-centric video representation to ease the video editing problem to a 3D space editing task. As such, editing can be performed in the 3D spaces and propagated to the entire video via the deformation field. To provide finer and direct controllable editing, we propose the image-based 3D space editing pipeline with a set of effective designs. These include multi-view multi-pose Score Distillation Sampling (SDS) from both 2D personalized diffusion priors and 3D diffusion priors, reconstruction losses on the reference image, text-guided local parts super-resolution, and style transfer for 3D background space. Extensive experiments demonstrate that our method, dubbed as DynVideo-E, significantly outperforms SOTA approaches on two challenging datasets by a large margin of 50% ~ 95% in terms of human preference. Compelling video comparisons are provided in the project page https://showlab.github.io/DynVideo-E/. Our code and data will be released to the community.

arxiv情報

著者 Jia-Wei Liu,Yan-Pei Cao,Jay Zhangjie Wu,Weijia Mao,Yuchao Gu,Rui Zhao,Jussi Keppo,Ying Shan,Mike Zheng Shou
発行日 2023-10-16 17:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク