要約
ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生成の最近の進歩にもかかわらず、構造化された3Dシーンについて推論し、生成する能力はほとんど既知のままです。
この制限により、具体化されたAI、没入型シミュレーション、インタラクティブな3Dアプリケーションなどの空間的に接地されたタスクでのユーティリティが制約されます。
継続的に進化する空間的コンテキストを注入することにより、VLMが複雑な3D環境を生成、理解、編集できるようにする新しいパラダイムを導入します。
マルチモーダル入力から構築されたこのコンテキストは、3つのコンポーネントで構成されています。高レベルのセマンティックブループリントを提供するシーンポートレート、オブジェクトレベルのジオメトリをキャプチャする意味的にラベル付けされたポイントクラウド、および単位、バイナリ、および高次制約を含む豊富な空間的関係をコードするシーンハイパーグラフ。
これらのコンポーネントは、VLMに、その固有のマルチモーダル推論機能を効果的な空間推論のために構造化された3D理解と統合する構造化されたジオメトリ認識ワーキングメモリを提供します。
この基盤に基づいて、VLMが空間コンテキストから読み取り、更新するエージェント3Dシーン生成パイプラインを開発します。
パイプラインは、幾何学的修復、自動検証による環境のセットアップ、およびシーンハイパーグラフによって導かれる人間工学に基づいた調整を伴う高品質の資産生成を特徴としています。
実験は、私たちのフレームワークが多様で挑戦的な入力を処理し、以前の作業では観察されないレベルの一般化を達成できることを示しています。
さらなる結果は、空間的コンテキストを注入することで、VLMがインタラクティブシーンの編集やパス計画などの下流タスクを実行できることを示しており、コンピューターグラフィックス、3Dビジョン、具体化されたアプリケーションの空間的にインテリジェントなシステムの強力な可能性を示唆しています。
プロジェクトページ:https://spatctxvlm.github.io/project_page/。
要約(オリジナル)
Despite recent advances in multimodal content generation enabled by vision-language models (VLMs), their ability to reason about and generate structured 3D scenes remains largely underexplored. This limitation constrains their utility in spatially grounded tasks such as embodied AI, immersive simulations, and interactive 3D applications. We introduce a new paradigm that enables VLMs to generate, understand, and edit complex 3D environments by injecting a continually evolving spatial context. Constructed from multimodal input, this context consists of three components: a scene portrait that provides a high-level semantic blueprint, a semantically labeled point cloud capturing object-level geometry, and a scene hypergraph that encodes rich spatial relationships, including unary, binary, and higher-order constraints. Together, these components provide the VLM with a structured, geometry-aware working memory that integrates its inherent multimodal reasoning capabilities with structured 3D understanding for effective spatial reasoning. Building on this foundation, we develop an agentic 3D scene generation pipeline in which the VLM iteratively reads from and updates the spatial context. The pipeline features high-quality asset generation with geometric restoration, environment setup with automatic verification, and ergonomic adjustment guided by the scene hypergraph. Experiments show that our framework can handle diverse and challenging inputs, achieving a level of generalization not observed in prior work. Further results demonstrate that injecting spatial context enables VLMs to perform downstream tasks such as interactive scene editing and path planning, suggesting strong potential for spatially intelligent systems in computer graphics, 3D vision, and embodied applications. Project page: https://spatctxvlm.github.io/project_page/.
arxiv情報
著者 | Xinhang Liu,Yu-Wing Tai,Chi-Keung Tang |
発行日 | 2025-06-16 15:42:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google