V-PRISM: Probabilistic Mapping of Unknown Tabletop Scenes

要約

センサー入力から簡潔なシーン表現を構築する機能は、ロボット工学の分野の中心です。
この論文では、セグメント化された RGB-D 画像からテーブル上のシーンの 3D 表現を堅牢に作成するという問題に取り組みます。
これらの表現は、さまざまな下流の操作タスクにとって重要です。
この問題に取り組むこれまでの試みの多くは、その後の安全な動作計画を作成するために必要な正確な不確実性を捉えていません。
この論文では、3D テーブルトップ シーンの表現をマルチクラス分類問題として取り上げます。
これに取り組むために、テーブルトップ シーンの確率的 3D セグメンテーション マップを堅牢に作成するためのフレームワークおよび手法である V-PRISM を紹介します。
当社のマップには、占有率の推定値、セグメンテーション情報、および原則に基づいた不確実性の尺度の両方が含まれています。
私たちは、(1) オープンソースのオブジェクト データセットを使用して手続き的に生成されたシーン、および (2) 深度カメラから収集された現実世界の卓上データにおける方法の堅牢性を評価します。
私たちの実験は、私たちのアプローチが、マルチクラス定式化内のオブジェクトについて明示的に推論しない代替の連続再構成アプローチよりも優れていることを示しています。

要約(オリジナル)

The ability to construct concise scene representations from sensor input is central to the field of robotics. This paper addresses the problem of robustly creating a 3D representation of a tabletop scene from a segmented RGB-D image. These representations are then critical for a range of downstream manipulation tasks. Many previous attempts to tackle this problem do not capture accurate uncertainty, which is required to subsequently produce safe motion plans. In this paper, we cast the representation of 3D tabletop scenes as a multi-class classification problem. To tackle this, we introduce V-PRISM, a framework and method for robustly creating probabilistic 3D segmentation maps of tabletop scenes. Our maps contain both occupancy estimates, segmentation information, and principled uncertainty measures. We evaluate the robustness of our method in (1) procedurally generated scenes using open-source object datasets, and (2) real-world tabletop data collected from a depth camera. Our experiments show that our approach outperforms alternative continuous reconstruction approaches that do not explicitly reason about objects in a multi-class formulation.

arxiv情報

著者 Herbert Wright,Weiming Zhi,Matthew Johnson-Roberson,Tucker Hermans
発行日 2024-03-14 02:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク