ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation

要約

オブジェクト6Dのポーズ推定は、特に操作タスクでは、ロボット工学の重要な課題です。
視覚的および触覚(視覚能)情報を組み合わせた以前の研究は有望であることが示されていますが、これらのアプローチは、視覚能力データの入手可能性が限られているため、一般化に苦労することがよくあります。
このホワイトペーパーでは、ゼロショット視覚型のポーズ推定フレームワークであるVita-Zeroを紹介します。
私たちの主要な革新は、視覚モデルをバックボーンとして活用し、触覚と固有受容の観察から導き出された物理的制約に基づいて、実現可能性チェックとテスト時間の最適化を実行することにあります。
具体的には、触覚センサーが引力を誘発し、固有受容が反発力を生成するスプリングマスシステムとしてグリッパーとオブジェクトの相互作用をモデル化します。
現実世界のロボットセットアップでの実験を通じてフレームワークを検証し、把握、オブジェクトピッキング、両handoverを含む代表的な視覚的バックボーンと操作シナリオ全体でその有効性を実証します。
視覚モデルと比較して、私たちのアプローチは、手元のオブジェクトのポーズを追跡しながら、いくつかの抜本的な障害モードを克服します。
実験では、私たちのアプローチは、ADD-SのAUCで55%、ADDで60%の平均増加と、FoundationPosesと比較して80%低い位置誤差を示しています。

要約(オリジナル)

Object 6D pose estimation is a critical challenge in robotics, particularly for manipulation tasks. While prior research combining visual and tactile (visuotactile) information has shown promise, these approaches often struggle with generalization due to the limited availability of visuotactile data. In this paper, we introduce ViTa-Zero, a zero-shot visuotactile pose estimation framework. Our key innovation lies in leveraging a visual model as its backbone and performing feasibility checking and test-time optimization based on physical constraints derived from tactile and proprioceptive observations. Specifically, we model the gripper-object interaction as a spring-mass system, where tactile sensors induce attractive forces, and proprioception generates repulsive forces. We validate our framework through experiments on a real-world robot setup, demonstrating its effectiveness across representative visual backbones and manipulation scenarios, including grasping, object picking, and bimanual handover. Compared to the visual models, our approach overcomes some drastic failure modes while tracking the in-hand object pose. In our experiments, our approach shows an average increase of 55% in AUC of ADD-S and 60% in ADD, along with an 80% lower position error compared to FoundationPose.

arxiv情報

著者 Hongyu Li,James Akl,Srinath Sridhar,Tye Brady,Taskin Padir
発行日 2025-04-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク