要約
クラスに依存しない画像セグメンテーション (SegmentAnything など) とオープンセットの意味論的理解 (CLIP など) のための最新ツールは、ロボットの認識とマッピングに前例のない機会を提供します。
従来のクローズドセットの計量セマンティック マップは数十または数百のセマンティック クラスに制限されていましたが、現在では大量のオブジェクトと無数のセマンティック バリエーションを含むマップを構築できます。
このため、基本的な疑問が残ります。ロボットがそのマップ表現に含める必要があるオブジェクト (より一般的には意味概念) の適切な粒度はどれくらいでしょうか?
関連する作業では物体検出のしきい値を調整することで粒度のレベルを暗黙的に選択しますが、そのような選択は本質的にタスクに依存すると主張します。
この論文の最初の貢献は、タスク駆動型の 3D シーン理解問題を提案することです。この問題では、ロボットには自然言語でタスクのリストが与えられ、そのマップに保持するオブジェクトとシーン構造の粒度とサブセットを選択する必要があります。
タスクを完了するには十分です。
この問題は、確立された情報理論のフレームワークである情報ボトルネック (IB) を使用して自然に定式化できることを示します。
2 番目の貢献は、凝集型 IB アプローチに基づくタスク駆動型 3D シーン理解のためのアルゴリズムです。このアルゴリズムは、環境内の 3D プリミティブをタスク関連のオブジェクトと領域にクラスター化し、段階的に実行できます。
3 番目の貢献は、タスク駆動型クラスタリング アルゴリズムを Clio という名前のリアルタイム パイプラインに統合することです。このパイプラインは、ロボットが環境を探索する際に、オンボード コンピューティングのみを使用して環境の階層的な 3D シーン グラフをオンラインで構築します。
私たちの最後の貢献は、Clio がコンパクトなオープンセット 3D シーン グラフのリアルタイム構築を可能にするだけでなく、マップを関連するセマンティック概念に限定することでタスク実行の精度も向上させることを示す広範な実験キャンペーンです。
要約(オリジナル)
Modern tools for class-agnostic image segmentation (e.g., SegmentAnything) and open-set semantic understanding (e.g., CLIP) provide unprecedented opportunities for robot perception and mapping. While traditional closed-set metric-semantic maps were restricted to tens or hundreds of semantic classes, we can now build maps with a plethora of objects and countless semantic variations. This leaves us with a fundamental question: what is the right granularity for the objects (and, more generally, for the semantic concepts) the robot has to include in its map representation? While related work implicitly chooses a level of granularity by tuning thresholds for object detection, we argue that such a choice is intrinsically task-dependent. The first contribution of this paper is to propose a task-driven 3D scene understanding problem, where the robot is given a list of tasks in natural language and has to select the granularity and the subset of objects and scene structure to retain in its map that is sufficient to complete the tasks. We show that this problem can be naturally formulated using the Information Bottleneck (IB), an established information-theoretic framework. The second contribution is an algorithm for task-driven 3D scene understanding based on an Agglomerative IB approach, that is able to cluster 3D primitives in the environment into task-relevant objects and regions and executes incrementally. The third contribution is to integrate our task-driven clustering algorithm into a real-time pipeline, named Clio, that constructs a hierarchical 3D scene graph of the environment online using only onboard compute, as the robot explores it. Our final contribution is an extensive experimental campaign showing that Clio not only allows real-time construction of compact open-set 3D scene graphs, but also improves the accuracy of task execution by limiting the map to relevant semantic concepts.
arxiv情報
著者 | Dominic Maggio,Yun Chang,Nathan Hughes,Matthew Trang,Dan Griffith,Carlyn Dougherty,Eric Cristofalo,Lukas Schmid,Luca Carlone |
発行日 | 2024-04-21 15:50:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google