3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting


既存の方法は、2D の個別のオブジェクトまたは 3D のグローバル シーンの編集のみに焦点を当てています。
その結果、さまざまな粒度レベルで 3D レベルでシーンを効果的に制御および操作するための統一されたアプローチが欠如します。
この研究では、2D から 3D へのシームレスな編集を可能にし、シーンの構成と個々のオブジェクトを正確に制御できるようにする、言語ガイドのもつれのないガウス スプラッティングを活用した斬新で統合されたシーン編集フレームワークである 3DitScene を提案します。
まず、生成事前分布と最適化技術を通じて洗練された 3D ガウスを組み込みます。
CLIP の言語機能は、オブジェクトのもつれを解くために 3D ジオメトリにセマンティクスを導入します。
3DitScene は、解きほぐされたガウス分布を使用して、グローバル レベルと個別レベルの両方での操作を可能にし、創造的な表現に革命をもたらし、シーンとオブジェクトの制御を可能にします。
実験結果は、シーン画像編集における 3DitScene の有効性と多用途性を示しています。
コードとオンライン デモは、プロジェクトのホームページ https://zqh0253.github.io/3DitScene/ でご覧いただけます。


Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.


著者 Qihang Zhang,Yinghao Xu,Chaoyang Wang,Hsin-Ying Lee,Gordon Wetzstein,Bolei Zhou,Ceyuan Yang
発行日 2024-05-28 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク