Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models

要約

人間のモーション シーケンスから 3D シーンを生成すると、仮想現実や建築設計などの多数のアプリケーションがサポートされます。
ただし、これまでの自動回帰ベースの人間認識 3D シーン生成方法では、複数のオブジェクトの結合分布を正確にキャプチャして人間を入力するのが困難で、同じ空間内でオブジェクト生成が重複することがよくありました。
この制限に対処するために、私たちは、入力されるすべての人間と間取りを同時に考慮して、もっともらしい 3D シーンを生成する拡散モデルの可能性を探ります。
私たちのアプローチは、入力されるすべての人間のインタラクションを満たすだけでなく、フロアプランによる空間的制約にも準拠します。
さらに、人間と物体の衝突回避と物体と部屋の境界制約という 2 つの空間衝突誘導メカニズムを導入します。
これらのメカニズムは、レイアウトの制約を尊重しながら、人間の動きと矛盾するシーンの生成を回避するのに役立ちます。
人間によるガイドによるシーン生成の多様性と精度を高めるために、既存の 3D FRONT HUMAN データセットにおける人間とオブジェクトの相互作用の多様性と妥当性を向上させる自動パイプラインを開発しました。
合成データセットと現実世界のデータセットの両方に対する広範な実験により、私たちのフレームワークが人間とシーンの正確なインタラクションを備えたより自然でもっともらしい 3D シーンを生成できると同時に、以前の最先端の方法と比較して人間とオブジェクトの衝突を大幅に削減できることが実証されました。
私たちのコードとデータは、この著作物の出版と同時に公開されます。

要約(オリジナル)

Generating 3D scenes from human motion sequences supports numerous applications, including virtual reality and architectural design. However, previous auto-regression-based human-aware 3D scene generation methods have struggled to accurately capture the joint distribution of multiple objects and input humans, often resulting in overlapping object generation in the same space. To address this limitation, we explore the potential of diffusion models that simultaneously consider all input humans and the floor plan to generate plausible 3D scenes. Our approach not only satisfies all input human interactions but also adheres to spatial constraints with the floor plan. Furthermore, we introduce two spatial collision guidance mechanisms: human-object collision avoidance and object-room boundary constraints. These mechanisms help avoid generating scenes that conflict with human motions while respecting layout constraints. To enhance the diversity and accuracy of human-guided scene generation, we have developed an automated pipeline that improves the variety and plausibility of human-object interactions in the existing 3D FRONT HUMAN dataset. Extensive experiments on both synthetic and real-world datasets demonstrate that our framework can generate more natural and plausible 3D scenes with precise human-scene interactions, while significantly reducing human-object collisions compared to previous state-of-the-art methods. Our code and data will be made publicly available upon publication of this work.

arxiv情報

著者 Xiaolin Hong,Hongwei Yi,Fazhi He,Qiong Cao
発行日 2024-08-20 13:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク