FingerSLAM: Closed-loop Unknown Object Localization and Reconstruction from Visuo-tactile Feedback

要約

この論文では、視覚触覚フィードバックを使用して 6-DoF ローカリゼーションと未知の手にあるオブジェクトの 3D 再構成の問題に対処します。
指先でのローカル触覚センシングとリストマウントカメラからのグローバルビジョンセンシングを組み合わせたクローズドループファクターグラフベースの姿勢推定器であるFingerSLAMを提案します。
FingerSLAM は、詳細なローカル テクスチャから動きをキャプチャするマルチパスの洗練された触覚ベースの姿勢推定器と、オブジェクトのグローバル ビューから予測するシングルパスの視覚ベースの姿勢推定器の 2 つの構成姿勢推定器で構成されています。
また、累積エラーを減らすために、現在の視覚および触覚画像を以前に保存されたキー フレームにアクティブに一致させるループ クロージャ メカニズムも設計します。
FingerSLAM には、触覚と視覚の 2 つのセンシング モダリティと、ファクター グラフ ベースの最適化フレームワークによるループ クロージャー メカニズムが組み込まれています。
このようなフレームワークは、スタンドアロンの推定器よりも正確な、最適化された姿勢推定ソリューションを生成します。
次に、推定された姿勢を使用して、触覚画像から復元されたローカル点群をつなぎ合わせることにより、未知のオブジェクトの形状を段階的に再構築します。
20 個のオブジェクトで収集された実世界のデータでシステムをトレーニングします。
トレーニング中に見えない 6 つのオブジェクトの定量的および定性的な現実世界の評価を通じて、信頼性の高い視覚触覚ポーズ推定と形状再構成を示します。

要約(オリジナル)

In this paper, we address the problem of using visuo-tactile feedback for 6-DoF localization and 3D reconstruction of unknown in-hand objects. We propose FingerSLAM, a closed-loop factor graph-based pose estimator that combines local tactile sensing at finger-tip and global vision sensing from a wrist-mount camera. FingerSLAM is constructed with two constituent pose estimators: a multi-pass refined tactile-based pose estimator that captures movements from detailed local textures, and a single-pass vision-based pose estimator that predicts from a global view of the object. We also design a loop closure mechanism that actively matches current vision and tactile images to previously stored key-frames to reduce accumulated error. FingerSLAM incorporates the two sensing modalities of tactile and vision, as well as the loop closure mechanism with a factor graph-based optimization framework. Such a framework produces an optimized pose estimation solution that is more accurate than the standalone estimators. The estimated poses are then used to reconstruct the shape of the unknown object incrementally by stitching the local point clouds recovered from tactile images. We train our system on real-world data collected with 20 objects. We demonstrate reliable visuo-tactile pose estimation and shape reconstruction through quantitative and qualitative real-world evaluations on 6 objects that are unseen during training.

arxiv情報

著者 Jialiang Zhao,Maria Bauza,Edward H. Adelson
発行日 2023-03-14 15:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク