DSM: Building A Diverse Semantic Map for 3D Visual Grounding

要約

近年、ロボット工学におけるマルチモーダル大手言語モデル(VLMS)の研究と応用により、ロボットシーンを理解するためにVLMを利用する傾向が増えています。
3D視覚的接地タスクにVLMを使用する既存のアプローチは、幾何学的および視覚情報を通じてシーン情報の取得、シーンからの多様なセマンティック情報の抽出と、外観、物理学、アフォーダンスなどの豊富な暗黙のセマンティック属性の理解を見下ろすことに焦点を当てています。
ジオメトリと言語を組み合わせた3Dシーングラフは、環境認識の理想的な表現方法であり、3D視覚接地タスクの言語モデルに効果的なキャリアです。
これらの問題に対処するために、3D視覚接地タスクを実行するロボットエージェント向けに特別に設計された多様なセマンティックマップ構築方法を提案します。
この方法は、VLMを活用して、シーン内のオブジェクトの潜在セマンティック属性と関係をキャプチャし、ジオメトリスライディングウィンドウマップ構築戦略を通じて多様なセマンティックマップ(DSM)を作成します。
DSMに基づいて接地情報の理解を高め、DSMグラウンドという名前の新しいアプローチを導入します。
実験結果は、この方法が、セマンティックセグメンテーションや3D視覚接地などのタスクでの現在のアプローチを上回ることを示しています。特に、最先端と比較して全体的なメトリックに優れています。
さらに、この方法をロボットに展開して、タスクと把握の有効性を検証しました。

要約(オリジナル)

In recent years, with the growing research and application of multimodal large language models (VLMs) in robotics, there has been an increasing trend of utilizing VLMs for robotic scene understanding tasks. Existing approaches that use VLMs for 3D Visual Grounding tasks often focus on obtaining scene information through geometric and visual information, overlooking the extraction of diverse semantic information from the scene and the understanding of rich implicit semantic attributes, such as appearance, physics, and affordance. The 3D scene graph, which combines geometry and language, is an ideal representation method for environmental perception and is an effective carrier for language models in 3D Visual Grounding tasks. To address these issues, we propose a diverse semantic map construction method specifically designed for robotic agents performing 3D Visual Grounding tasks. This method leverages VLMs to capture the latent semantic attributes and relations of objects within the scene and creates a Diverse Semantic Map (DSM) through a geometry sliding-window map construction strategy. We enhance the understanding of grounding information based on DSM and introduce a novel approach named DSM-Grounding. Experimental results show that our method outperforms current approaches in tasks like semantic segmentation and 3D Visual Grounding, particularly excelling in overall metrics compared to the state-of-the-art. In addition, we have deployed this method on robots to validate its effectiveness in navigation and grasping tasks.

arxiv情報

著者 Qinghongbing Xie,Zijian Liang,Long Zeng
発行日 2025-04-11 07:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク