要約
部屋に関する 3D 屋内シーンの構造的構成を理解するには、多くの場合、フロアプランを抽出します。
計画やナビゲーションなどのロボット タスクには、シーンの意味的理解も必要です。
これは通常、オブジェクト レベルのセマンティック セグメンテーションによって実現されます。
ただし、このような方法では、シーン内の「キッチン」のようなトポロジー領域をセグメント化するのが困難です。
この作業では、2 段階のパイプラインを導入します。
まず、新しいマルチチャネル占有表現を使用してトポロジー マップ、つまり屋内シーンのフロアプランを抽出します。
次に、セルフ アテンション トランスフォーマを使用して、ルーム インスタンスごとに、そこに含まれるオブジェクトに基づいて、CLIP に調整されたフィーチャとセマンティック ラベルを生成します。
私たちの言語トポロジーの調整は、自然言語クエリをサポートします。たとえば、「料理をする場所」は「キッチン」の位置を特定します。
当社は、部屋のセグメンテーションに関しては現在の最先端技術を最大 20%、部屋の分類では最大 12% 上回っています。
当社の詳細な定性分析とアブレーション研究により、関節の構造的および意味論的な 3D シーンの理解の問題についての洞察が得られます。
要約(オリジナル)
Understanding the structural organisation of 3D indoor scenes in terms of rooms is often accomplished via floorplan extraction. Robotic tasks such as planning and navigation require a semantic understanding of the scene as well. This is typically achieved via object-level semantic segmentation. However, such methods struggle to segment out topological regions like ‘kitchen’ in the scene. In this work, we introduce a two-step pipeline. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a ‘place to cook’ locates the ‘kitchen’. We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding.
arxiv情報
著者 | Yash Mehan,Kumaraditya Gupta,Rohit Jayanti,Anirudh Govil,Sourav Garg,Madhava Krishna |
発行日 | 2024-04-09 16:42:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google