要約
計画やナビゲーションなどのロボット タスクでは、複数のフロアや部屋が含まれる可能性があるシーンを階層的に意味論的に理解する必要があります。
現在の方法は、主に 3D シーンを理解するためのオブジェクトのセグメンテーションに焦点を当てています。
ただし、このような方法では、シーン内の「キッチン」のようなトポロジー領域をセグメント化するのが困難です。
この作業では、この問題を解決するために 2 段階のパイプラインを導入します。
まず、新しいマルチチャネル占有表現を使用してトポロジー マップ、つまり屋内シーンのフロアプランを抽出します。
次に、セルフ アテンション トランスフォーマを使用して、ルーム インスタンスごとに、そこに含まれるオブジェクトに基づいて、CLIP に調整されたフィーチャとセマンティック ラベルを生成します。
私たちの言語トポロジの調整は、自然言語クエリをサポートします。たとえば、「料理をする場所」は「キッチン」の位置を特定します。
当社は、部屋のセグメンテーションに関しては現在の最先端技術を最大 20%、部屋の分類では最大 12% 上回っています。
当社の詳細な定性分析とアブレーション研究により、関節の構造的および意味論的な 3D シーンの理解の問題についての洞察が得られます。
プロジェクトページ: Quest-maps.github.io
要約(オリジナル)
Robotic tasks such as planning and navigation require a hierarchical semantic understanding of a scene, which could include multiple floors and rooms. Current methods primarily focus on object segmentation for 3D scene understanding. However, such methods struggle to segment out topological regions like ‘kitchen’ in the scene. In this work, we introduce a two-step pipeline to solve this problem. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a ‘place to cook’ locates the ‘kitchen’. We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding. Project Page: quest-maps.github.io
arxiv情報
著者 | Yash Mehan,Kumaraditya Gupta,Rohit Jayanti,Anirudh Govil,Sourav Garg,Madhava Krishna |
発行日 | 2024-12-12 08:48:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google