ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

要約

この論文では、3D 認識と 3D 一貫性を備えた 2D 拡散モデルを強化する新しいフレームワークである ConsistDreamer を提案します。これにより、高忠実度の命令ガイド付きシーン編集が可能になります。
2D 拡散モデルで 3D 一貫性が欠如しているという根本的な制限を克服するために、私たちの重要な洞察は、2D 拡散モデルの入力を強化して 3D 対応にし、トレーニング プロセス中に 3D 一貫性を明示的に強制する 3 つの相乗戦略を導入することです。
具体的には、周囲のビューを 2D 拡散モデルのコンテキスト豊富な入力として設計し、画像に依存しないノイズの代わりに 3D 一貫性のある構造化ノイズを生成します。
さらに、シーンごとの編集手順内に自己監視型の一貫性強化トレーニングを導入します。
広範な評価により、当社の ConsistDreamer は、さまざまなシーンにわたる命令ガイド付きのシーン編集と編集命令、特に ScanNet++ による複雑で大規模な屋内シーンにおいて、大幅に向上したシャープネスときめの細かいテクスチャにより、最先端のパフォーマンスを達成していることが示されています。
特に、ConsistDreamer は、複雑な (格子縞/市松模様など) パターンを首尾よく編集できる最初の作品です。
私たちのプロジェクト ページは immortalco.github.io/ConsistDreamer にあります。

要約(オリジナル)

This paper proposes ConsistDreamer – a novel framework that lifts 2D diffusion models with 3D awareness and 3D consistency, thus enabling high-fidelity instruction-guided scene editing. To overcome the fundamental limitation of missing 3D consistency in 2D diffusion models, our key insight is to introduce three synergetic strategies that augment the input of the 2D diffusion model to become 3D-aware and to explicitly enforce 3D consistency during the training process. Specifically, we design surrounding views as context-rich input for the 2D diffusion model, and generate 3D-consistent, structured noise instead of image-independent noise. Moreover, we introduce self-supervised consistency-enforcing training within the per-scene editing procedure. Extensive evaluation shows that our ConsistDreamer achieves state-of-the-art performance for instruction-guided scene editing across various scenes and editing instructions, particularly in complicated large-scale indoor scenes from ScanNet++, with significantly improved sharpness and fine-grained textures. Notably, ConsistDreamer stands as the first work capable of successfully editing complex (e.g., plaid/checkered) patterns. Our project page is at immortalco.github.io/ConsistDreamer.

arxiv情報

著者 Jun-Kun Chen,Samuel Rota Bulò,Norman Müller,Lorenzo Porzi,Peter Kontschieder,Yu-Xiong Wang
発行日 2024-06-13 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク