FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding

要約

フリーフォーム言語を介した複雑な3Dシーンでのセマンティッククエリは、重要な課題を提示します。
既存の3Dシーンの理解方法を使用して、大規模なトレーニングデータとクリップを使用して、テキストクエリを3Dセマンティック機能に合わせます。
ただし、トレーニングデータから事前定義された語彙事前に依存することは、自由形式のセマンティッククエリを妨げます。
その上、最近の高度な方法は、シーンの理解のためにLLMに依存していますが、包括的な3Dシーンレベルの情報がなく、LLMが生成した出力の潜在的な矛盾を見落としていることがよくあります。
私たちの論文では、3Dシーンの理解のためのセマンティックな一貫したシーングラフでフリーフォームクエリを可能にするFreeq-Graphを提案します。
核となるアイデアは、事前定義された語彙なしで完全かつ正確な3Dシーングラフからフリーフォームクエリをエンコードし、3つの重要なステップで達成した3D一貫したセマンティックラベルに揃えることです。
LLMおよびLVLMガイダンスを通じてフリーフォームオブジェクトとその関係をマッピングする完全で正確な3Dシーングラフを構築することにより、完全にトレーニングデータまたは事前定義されたプライアーが含まれていません。
最も重要なことは、マージされたスーパーポイントからの3Dセマンティックアラインド機能を活用して、3Dセマンティックの一貫性を高めることにより、グラフノードを正確なセマンティックラベルと並べることです。
フリーフォームセマンティッククエリを有効にするために、シーンレベルとオブジェクトレベルの情報を複雑な推論に組み合わせたLLMベースの推論アルゴリズムを設計します。
グラフ生成の精度も検証しながら、3Dセマンティック接地、セグメンテーション、および複雑なクエリタスクに関する広範な実験を実施しました。
6つのデータセットでの実験は、モデルが複雑なフリーフォームセマンティッククエリと複雑なリレーショナル推論の両方に優れていることを示しています。

要約(オリジナル)

Semantic querying in complex 3D scenes through free-form language presents a significant challenge. Existing 3D scene understanding methods use large-scale training data and CLIP to align text queries with 3D semantic features. However, their reliance on predefined vocabulary priors from training data hinders free-form semantic querying. Besides, recent advanced methods rely on LLMs for scene understanding but lack comprehensive 3D scene-level information and often overlook the potential inconsistencies in LLM-generated outputs. In our paper, we propose FreeQ-Graph, which enables Free-form Querying with a semantic consistent scene Graph for 3D scene understanding. The core idea is to encode free-form queries from a complete and accurate 3D scene graph without predefined vocabularies, and to align them with 3D consistent semantic labels, which accomplished through three key steps. We initiate by constructing a complete and accurate 3D scene graph that maps free-form objects and their relations through LLM and LVLM guidance, entirely free from training data or predefined priors. Most importantly, we align graph nodes with accurate semantic labels by leveraging 3D semantic aligned features from merged superpoints, enhancing 3D semantic consistency. To enable free-form semantic querying, we then design an LLM-based reasoning algorithm that combines scene-level and object-level information to intricate reasoning. We conducted extensive experiments on 3D semantic grounding, segmentation, and complex querying tasks, while also validating the accuracy of graph generation. Experiments on 6 datasets show that our model excels in both complex free-form semantic queries and intricate relational reasoning.

arxiv情報

著者 Chenlu Zhan,Gaoang Wang,Hongwei Wang
発行日 2025-06-16 15:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク