ViHOPE: Visuotactile In-Hand Object 6D Pose Estimation with Shape Completion

要約

このレターでは、視覚触覚を使用して手に持ったオブジェクトの 6D 姿勢を推定するための新しいフレームワークである ViHOPE を紹介します。
私たちの重要な洞察は、6D オブジェクトの姿勢推定の精度は、オブジェクトの形状を明示的に完成させることで向上できるということです。
この目的を達成するために、条件付き敵対的生成ネットワークを使用して、体積表現に基づいて手持ちオブジェクトの形状を完成させる、新しい視覚触覚形状完成モジュールを導入します。
このアプローチは、視覚触覚観察を 6D ポーズに直接回帰させる以前の研究よりも改善されています。
手持ちオブジェクトの形状を明示的に完成させ、形状完成タスクと姿勢推定タスクを共同で最適化することで、6D オブジェクトの姿勢推定の精度が向上します。
合成データセット上でモデルをトレーニングおよびテストし、それを最先端のデータセットと比較します。
視覚触覚による形状完成タスクでは、ユニオン交差メトリクスを使用して最先端のパフォーマンスを 265% 上回り、88% 低い面取り距離を達成しました。
視覚触覚姿勢推定タスクでは、私たちのフレームワークが位置誤差と角度誤差をそれぞれ 35% と 64% 削減することを示唆する結果を提示します。
さらに、フレームワークをアブレーションして、形状を明示的に完成させることによる 6D オブジェクトの姿勢推定のゲインを確認します。
最終的に、私たちのフレームワークが現実世界のロボット プラットフォーム上でのシミュレーションからリアルへの転送に対して堅牢なモデルを生成することを示します。

要約(オリジナル)

In this letter, we introduce ViHOPE, a novel framework for estimating the 6D pose of an in-hand object using visuotactile perception. Our key insight is that the accuracy of the 6D object pose estimate can be improved by explicitly completing the shape of the object. To this end, we introduce a novel visuotactile shape completion module that uses a conditional Generative Adversarial Network to complete the shape of an in-hand object based on volumetric representation. This approach improves over prior works that directly regress visuotactile observations to a 6D pose. By explicitly completing the shape of the in-hand object and jointly optimizing the shape completion and pose estimation tasks, we improve the accuracy of the 6D object pose estimate. We train and test our model on a synthetic dataset and compare it with the state-of-the-art. In the visuotactile shape completion task, we outperform the state-of-the-art by 265% using the Intersection of Union metric and achieve 88% lower Chamfer Distance. In the visuotactile pose estimation task, we present results that suggest our framework reduces position and angular errors by 35% and 64%, respectively. Furthermore, we ablate our framework to confirm the gain on the 6D object pose estimate from explicitly completing the shape. Ultimately, we show that our framework produces models that are robust to sim-to-real transfer on a real-world robot platform.

arxiv情報

著者 Hongyu Li,Snehal Dikhale,Soshi Iba,Nawid Jamali
発行日 2023-09-11 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク