MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

要約

制御可能な3Dシーン生成には、仮想現実とインテリアデザインに広範なアプリケーションがあり、生成されたシーンは、ジオメトリの観点から高レベルのリアリズムと制御性を示す必要があります。
シーングラフは、これらのアプリケーションを容易にする適切なデータ表現を提供します。
ただし、シーン生成向けの現在のグラフベースの方法は、テキストベースの入力に制約され、柔軟なユーザー入力に対する適応性が不十分であることを示し、オブジェクトジオメトリを正確に制御する能力を妨げます。
この問題に対処するために、新しい混合モダリティグラフ、視覚エンハンスメントモジュール、および関係予測子を組み込んだシーン生成のデュアルブランチ拡散モデルであるMMGDreamerを提案します。
混合モダリティグラフにより、オブジェクトノードはテキストと視覚のモダリティを統合し、ノード間のオプションの関係を備えています。
これにより、柔軟なユーザー入力への適応性が向上し、生成されたシーンのオブジェクトのジオメトリを綿密に制御できます。
視覚強化モジュールは、テキストの埋め込みを使用して視覚表現を構築することにより、テキストのみのノードの視覚的忠実度を豊かにします。
さらに、関係予測子はノード表現をレバレッジして、ノード間の関係がないことを推測し、よりコヒーレントなシーンレイアウトをもたらします。
広範な実験結果は、MMGDreamerがオブジェクトジオメトリの優れた制御を示し、最先端のシーン生成パフォーマンスを達成することを示しています。
プロジェクトページ:https://yangzhifeio.github.io/project/mmgdreamer。

要約(オリジナル)

Controllable 3D scene generation has extensive applications in virtual reality and interior design, where the generated scenes should exhibit high levels of realism and controllability in terms of geometry. Scene graphs provide a suitable data representation that facilitates these applications. However, current graph-based methods for scene generation are constrained to text-based inputs and exhibit insufficient adaptability to flexible user inputs, hindering the ability to precisely control object geometry. To address this issue, we propose MMGDreamer, a dual-branch diffusion model for scene generation that incorporates a novel Mixed-Modality Graph, visual enhancement module, and relation predictor. The mixed-modality graph allows object nodes to integrate textual and visual modalities, with optional relationships between nodes. It enhances adaptability to flexible user inputs and enables meticulous control over the geometry of objects in the generated scenes. The visual enhancement module enriches the visual fidelity of text-only nodes by constructing visual representations using text embeddings. Furthermore, our relation predictor leverages node representations to infer absent relationships between nodes, resulting in more coherent scene layouts. Extensive experimental results demonstrate that MMGDreamer exhibits superior control of object geometry, achieving state-of-the-art scene generation performance. Project page: https://yangzhifeio.github.io/project/MMGDreamer.

arxiv情報

著者 Zhifei Yang,Keyang Lu,Chao Zhang,Jiaxing Qi,Hanqi Jiang,Ruifei Ma,Shenglin Yin,Yifan Xu,Mingzhe Xing,Zhen Xiao,Jieyi Long,Xiangde Liu,Guangyao Zhai
発行日 2025-03-06 15:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク