Global-Local Tree Search in VLMs for 3D Indoor Scene Generation

要約

GPT-4などの大きなビジョン言語モデル(VLM)は、さまざまな分野で顕著な成功を収めています。
ただし、VLMSを使用した3D屋内シーン生成に関する研究はほとんどありません。
この論文は、このタスクを空間的およびレイアウト常識の制約の対象とする計画問題と見なしています。
VLMで問題を解決するために、新しいグローバルローカルツリー検索アルゴリズムを提案します。
グローバルに、このメソッドは各オブジェクトを順番に配置し、各配置プロセス中に複数の配置を調査します。ここでは、問題スペースがツリーとして表されます。
ツリーの深さを減らすために、シーン構造を階層的に分解します。つまり、部屋レベル、領域レベル、床オブジェクトレベル、サポートされているオブジェクトレベルを分解します。
このアルゴリズムは、異なる領域のフロアオブジェクトを個別に生成し、異なる床オブジェクトに配置されたサポートされているオブジェクトを生成します。
地元では、各オブジェクトの配置であるサブタスクを複数のステップに分解します。
アルゴリズムは、問題のあるツリーを検索します。
VLMモデルを活用してオブジェクトの位置を生成するために、トップダウンビュースペースを密なグリッドとして離散化し、各セルを多様な絵文字で満たして細胞に違います。
絵文字グリッドでVLMを促し、VLMは絵文字の名前で位置を記述することにより、オブジェクトの合理的な場所を生成します。
定量的および定性的な実験結果は、私たちのアプローチが最先端のアプローチよりももっともらしい3Dシーンを生成することを示しています。
ソースコードは、https://github.com/dw-dengwei/treesearchgenで入手できます。

要約(オリジナル)

Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

arxiv情報

著者 Wei Deng,Mengshi Qi,Huadong Ma
発行日 2025-03-25 02:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク