QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding

要約

部屋に関する 3D 屋内シーンの構造的構成を理解するには、多くの場合、フロアプランを抽出します。
計画やナビゲーションなどのロボット タスクには、シーンの意味的理解も必要です。
これは通常、オブジェクト レベルのセマンティック セグメンテーションによって実現されます。
ただし、このような方法では、シーン内の「キッチン」のようなトポロジー領域をセグメント化するのが困難です。
この作業では、2 段階のパイプラインを導入します。
まず、新しいマルチチャネル占有表現を使用してトポロジー マップ、つまり屋内シーンのフロアプランを抽出します。
次に、セルフ アテンション トランスフォーマを使用して、ルーム インスタンスごとに、そこに含まれるオブジェクトに基づいて、CLIP に調整されたフィーチャとセマンティック ラベルを生成します。
私たちの言語トポロジーの調整は、自然言語クエリをサポートします。たとえば、「料理をする場所」は「キッチン」の位置を特定します。
当社は、部屋のセグメンテーションに関しては現在の最先端技術を最大 20%、部屋の分類では最大 12% 上回っています。
当社の詳細な定性分析とアブレーション研究により、関節の構造的および意味論的な 3D シーンの理解の問題についての洞察が得られます。

要約(オリジナル)

Understanding the structural organisation of 3D indoor scenes in terms of rooms is often accomplished via floorplan extraction. Robotic tasks such as planning and navigation require a semantic understanding of the scene as well. This is typically achieved via object-level semantic segmentation. However, such methods struggle to segment out topological regions like ‘kitchen’ in the scene. In this work, we introduce a two-step pipeline. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a ‘place to cook’ locates the ‘kitchen’. We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding.

arxiv情報

著者 Yash Mehan,Kumaraditya Gupta,Rohit Jayanti,Anirudh Govil,Sourav Garg,Madhava Krishna
発行日 2024-04-09 16:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク