Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning

要約

具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーンの合成が不可欠です。
オブジェクトの生成とレイアウト生成の2つのサブタスクに自然に分割できます。
最近の生成モデルには、オブジェクトレベルの品質と制御可能性が大幅に進歩していますが、データセットが限られているため、レイアウト生成は依然として困難です。
既存のメソッドは、これらのデータセットに過剰にフィットするか、事前に定義された制約に依存して、柔軟性を犠牲にする数値レイアウトを最適化します。
その結果、彼らはオープンボキャブラリーであり、きめ細かいユーザー命令と整合するシーンを生成できませんでした。
DirectLayoutを導入します。これは、大規模な言語モデル(LLM)の一般化可能な空間推論を使用して、テキストの説明から数値3Dレイアウトを直接生成するフレームワークです。
DirectLayoutは、世代を3つの段階に分解します。鳥瞰図(BEV)レイアウトの作成、3Dスペースに持ち上げ、オブジェクトの配置を改良します。
明示的な空間推論を有効にし、モデルがオブジェクト配置の基本原理を把握できるようにするために、3D-FRONTデータセットに基づいて、チェーンオブ思考(COT)のアクティベーションを採用します。
さらに、コットグラウンドの生成レイアウト報酬を設計して、一般化と空間計画を強化します。
推論中、DirectLayoutは、コンテキスト内学習を介した反復資産のアラインメントを介して、資産とレイアウトの不一致に対処します。
広範な実験は、DirectLayoutが印象的なセマンティックな一貫性、一般化、および物理的妥当性を達成することを示しています。

要約(オリジナル)

Realistic 3D indoor scene synthesis is vital for embodied AI and digital content creation. It can be naturally divided into two subtasks: object generation and layout generation. While recent generative models have significantly advanced object-level quality and controllability, layout generation remains challenging due to limited datasets. Existing methods either overfit to these datasets or rely on predefined constraints to optimize numerical layout that sacrifice flexibility. As a result, they fail to generate scenes that are both open-vocabulary and aligned with fine-grained user instructions. We introduce DirectLayout, a framework that directly generates numerical 3D layouts from text descriptions using generalizable spatial reasoning of large language models (LLMs). DirectLayout decomposes the generation into three stages: producing a Bird’s-Eye View (BEV) layout, lifting it into 3D space, and refining object placements. To enable explicit spatial reasoning and help the model grasp basic principles of object placement, we employ Chain-of-Thought (CoT) Activation based on the 3D-Front dataset. Additionally, we design CoT-Grounded Generative Layout Reward to enhance generalization and spatial planning. During inference, DirectLayout addresses asset-layout mismatches via Iterative Asset-Layout Alignment through in-context learning. Extensive experiments demonstrate that DirectLayout achieves impressive semantic consistency, generalization and physical plausibility.

arxiv情報

著者 Xingjian Ran,Yixuan Li,Linning Xu,Mulin Yu,Bo Dai
発行日 2025-06-05 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク