Real-time 3D Semantic Scene Perception for Egocentric Robots with Binocular Vision

要約

屋内を移動しながら複数のオブジェクトを含む 3 次元 (3D) シーンを認識することは、視覚ベースの移動協働ロボットにとって、特に操作タスクを強化するために不可欠です。
この研究では、両眼視機能を持つ自己中心ロボットのインスタンス セグメンテーション、特徴マッチング、点セット登録を備えたエンドツーエンドのパイプラインを提示し、提案されたパイプラインを介してロボットの把握能力を実証します。
まず、シングルビュー 3D セマンティック シーン セグメンテーションのための RGB 画像ベースのセグメンテーション アプローチを設計します。これは、2D データセット内の共通オブジェクト クラスを利用して、対応する深度マップを通じて 3D ポイントをオブジェクト インスタンスの点群にカプセル化します。
次に、前のステップで得た RGB 画像内の対象オブジェクト間の一致するキーポイントに基づいて、2 つの連続するセグメント化された点群の 3D 対応が抽出されます。
さらに、3D フィーチャ分布の空間変化を認識するために、カーネル密度推定 (KDE) を使用して推定された分布に基づいて各 3D 点ペアの重み付けも行います。これにより、点群間の剛体変換を解決しながら、中心対応が少なくなる堅牢性が得られます。

最後に、Intel RealSense D435i RGB-D カメラを搭載した 7-DOF デュアルアーム Baxter ロボットで、提案したパイプラインをテストします。
その結果、ロボットが対象物体をセグメント化し、移動中に複数のビューを登録し、対象物体を把握できることがわかりました。
ソース コードは https://github.com/mkhangg/semantic_scene_perception で入手できます。

要約(オリジナル)

Perceiving a three-dimensional (3D) scene with multiple objects while moving indoors is essential for vision-based mobile cobots, especially for enhancing their manipulation tasks. In this work, we present an end-to-end pipeline with instance segmentation, feature matching, and point-set registration for egocentric robots with binocular vision, and demonstrate the robot’s grasping capability through the proposed pipeline. First, we design an RGB image-based segmentation approach for single-view 3D semantic scene segmentation, leveraging common object classes in 2D datasets to encapsulate 3D points into point clouds of object instances through corresponding depth maps. Next, 3D correspondences of two consecutive segmented point clouds are extracted based on matched keypoints between objects of interest in RGB images from the prior step. In addition, to be aware of spatial changes in 3D feature distribution, we also weigh each 3D point pair based on the estimated distribution using kernel density estimation (KDE), which subsequently gives robustness with less central correspondences while solving for rigid transformations between point clouds. Finally, we test our proposed pipeline on the 7-DOF dual-arm Baxter robot with a mounted Intel RealSense D435i RGB-D camera. The result shows that our robot can segment objects of interest, register multiple views while moving, and grasp the target object. The source code is available at https://github.com/mkhangg/semantic_scene_perception.

arxiv情報

著者 K. Nguyen,T. Dang,M. Huber
発行日 2024-02-19 06:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク