Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints

要約

テキスト駆動の 3D 屋内シーン生成は、ゲーム、映画業界、AR/VR アプリケーションに役立つ可能性があります。
しかし、既存の方法では部屋のレイアウトを忠実に捉えることはできず、部屋内の個々のオブジェクトを柔軟に編集することもできません。
これらの問題に対処するために、テキスト プロンプトだけからデザイナー スタイルのレイアウトと忠実度の高いテクスチャを備えた説得力のある 3D ルームを生成できる Ctrl-Room を紹介します。
さらに、Ctrl-Room を使用すると、個々の家具アイテムのサイズ変更や移動など、多用途の対話型編集操作が可能になります。
私たちの重要な洞察は、レイアウトと外観のモデリングを分離することです。
%シーンのテクスチャとジオメトリの両方を同時に考慮して部屋をモデル化する方法。
この目的を達成するために、提案手法は「レイアウト生成段階」と「外観生成段階」の 2 つの段階から構成されます。
「レイアウト生成ステージ」では、テキスト条件付き拡散モデルをトレーニングして、全体的なシーン コード パラメーター化を使用してレイアウト分布を学習します。
次に、「外観生成ステージ」では、微調整された ControlNet を使用して、3D シーン レイアウトとテキスト プロンプトに従って部屋の鮮やかなパノラマ イメージを生成します。
これにより、説得力のあるレイアウトと生き生きとした質感を備えた高品質な 3D 部屋を実現します。
シーン コードのパラメーター化の利点を活用して、高価な編集固有のトレーニングを必要とせずに、マスク ガイド付き編集モジュールを通じて、生成された部屋モデルを簡単に編集できます。
Structured3D データセットに対する広範な実験により、自然言語プロンプトからより合理的で、ビューの一貫性があり、編集可能な 3D 部屋を生成する点で、私たちの方法が既存の方法よりも優れていることが実証されました。

要約(オリジナル)

Text-driven 3D indoor scene generation could be useful for gaming, film industry, and AR/VR applications. However, existing methods cannot faithfully capture the room layout, nor do they allow flexible editing of individual objects in the room. To address these problems, we present Ctrl-Room, which is able to generate convincing 3D rooms with designer-style layouts and high-fidelity textures from just a text prompt. Moreover, Ctrl-Room enables versatile interactive editing operations such as resizing or moving individual furniture items. Our key insight is to separate the modeling of layouts and appearance. %how to model the room that takes into account both scene texture and geometry at the same time. To this end, Our proposed method consists of two stages, a `Layout Generation Stage’ and an `Appearance Generation Stage’. The `Layout Generation Stage’ trains a text-conditional diffusion model to learn the layout distribution with our holistic scene code parameterization. Next, the `Appearance Generation Stage’ employs a fine-tuned ControlNet to produce a vivid panoramic image of the room guided by the 3D scene layout and text prompt. In this way, we achieve a high-quality 3D room with convincing layouts and lively textures. Benefiting from the scene code parameterization, we can easily edit the generated room model through our mask-guided editing module, without expensive editing-specific training. Extensive experiments on the Structured3D dataset demonstrate that our method outperforms existing methods in producing more reasonable, view-consistent, and editable 3D rooms from natural language prompts.

arxiv情報

著者 Chuan Fang,Xiaotao Hu,Kunming Luo,Ping Tan
発行日 2023-10-05 15:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク