要約
3D屋内シーンの生成は、デジタルおよび現実世界の環境の設計にとって重要な問題です。
このプロセスを自動化するために、シーン生成モデルは、もっともらしいシーンレイアウトを生成するだけでなく、視覚的な機能とスタイルの好みを考慮に入れることができるはずです。
このタスクの既存の方法は、これらの属性を非常に限られた制御を示し、単純なオブジェクトレベルの説明またはペアワイズ空間関係の形でテキスト入力のみを許可します。
提案された方法の装飾により、ユーザーは各段階で言語ベースの表現を採用することにより、自然言語でシーン生成プロセスを制御できます。
これにより、言語から言語へのマッピングをモデル化するために、大規模な言語モデル(LLMS)の最近の進歩を活用することができます。
さらに、テキストベースの表現を使用すると、マルチモーダルLLMSに基づく新しいオブジェクト検索方法を使用して、シーンの家具を選択できることを示しています。
ベンチマーク3D-FRONTデータセットの評価は、テキストコンディショニングシーンの統合とオブジェクトの検索における既存の作業よりも改善を達成することを示しています。
要約(オリジナル)
3D indoor scene generation is an important problem for the design of digital and real-world environments. To automate this process, a scene generation model should be able to not only generate plausible scene layouts, but also take into consideration visual features and style preferences. Existing methods for this task exhibit very limited control over these attributes, only allowing text inputs in the form of simple object-level descriptions or pairwise spatial relationships. Our proposed method Decorum enables users to control the scene generation process with natural language by adopting language-based representations at each stage. This enables us to harness recent advancements in Large Language Models (LLMs) to model language-to-language mappings. In addition, we show that using a text-based representation allows us to select furniture for our scenes using a novel object retrieval method based on multimodal LLMs. Evaluations on the benchmark 3D-FRONT dataset show that our methods achieve improvements over existing work in text-conditioned scene synthesis and object retrieval.
arxiv情報
著者 | Kelly O. Marshall,Omid Poursaeed,Sergiu Oprea,Amit Kumar,Anushrut Jignasu,Chinmay Hegde,Yilei Li,Rakesh Ranjan |
発行日 | 2025-03-25 15:58:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google