Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

要約

この論文では、2D 拡散モデルの 4D 認識と時空間的一貫性を実現し、高品質の命令ガイド付き動的シーン編集結果を生成する Instruct 4D-to-4D を提案します。
動的シーン編集における 2D 拡散モデルの従来の適用では、主に固有のフレームごとの編集手法が原因で、不整合が生じることがよくあります。
命令ガイド付き編集を 4D に拡張する際の複雑さに対処するため、私たちの重要な洞察は、4D シーンを疑似 3D シーンとして扱い、ビデオ編集での時間的一貫性の実現と、これらの編集を疑似 3D に適用するという 2 つのサブ問題に分離することです。
シーン。
これに続いて、まずバッチ処理と一貫した編集のためのアンカー認識アテンション モジュールを使用して Instruct-Pix2Pix (IP2P) モデルを強化します。
さらに、オプティカル フロー ガイドによる外観伝播をスライディング ウィンドウ方式で統合して、より正確なフレーム間編集を実現し、深度ベースの投影を組み込んで擬似 3D シーンの膨大なデータを管理し、その後、反復編集を行って収束を実現します。
我々は、さまざまなシーンや編集指示でこのアプローチを広範囲に評価し、従来技術に比べてディテールと鮮明さが大幅に向上し、空間的および時間的に一貫した編集結果が得られることを実証しました。
特に、Instruct 4D-to-4D は一般的であり、単眼シーンと困難なマルチカメラ シーンの両方に適用できます。
コードとその他の結果は immortalco.github.io/Instruct-4D-to-4D で入手できます。

要約(オリジナル)

This paper proposes Instruct 4D-to-4D that achieves 4D awareness and spatial-temporal consistency for 2D diffusion models to generate high-quality instruction-guided dynamic scene editing results. Traditional applications of 2D diffusion models in dynamic scene editing often result in inconsistency, primarily due to their inherent frame-by-frame editing methodology. Addressing the complexities of extending instruction-guided editing to 4D, our key insight is to treat a 4D scene as a pseudo-3D scene, decoupled into two sub-problems: achieving temporal consistency in video editing and applying these edits to the pseudo-3D scene. Following this, we first enhance the Instruct-Pix2Pix (IP2P) model with an anchor-aware attention module for batch processing and consistent editing. Additionally, we integrate optical flow-guided appearance propagation in a sliding window fashion for more precise frame-to-frame editing and incorporate depth-based projection to manage the extensive data of pseudo-3D scenes, followed by iterative editing to achieve convergence. We extensively evaluate our approach in various scenes and editing instructions, and demonstrate that it achieves spatially and temporally consistent editing results, with significantly enhanced detail and sharpness over the prior art. Notably, Instruct 4D-to-4D is general and applicable to both monocular and challenging multi-camera scenes. Code and more results are available at immortalco.github.io/Instruct-4D-to-4D.

arxiv情報

著者 Linzhan Mou,Jun-Kun Chen,Yu-Xiong Wang
発行日 2024-06-13 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク