要約
我々は、視覚に基づく器用な把持変換の新しいアプローチを提案する。このアプローチは、形態の異なるロボットハンド間で把持の意図を伝達することを目的とする。把持元のハンドが物体を把持している様子を視覚的に観察した場合、対になるデモンストレーションやハンド固有のシミュレーションを必要とせずに、把持対象のハンドに対して機能的に等価な把持を合成することを目標とする。我々はこの問題を、シュルオディンガー橋形式論を用いた把持分布間の確率的輸送として扱う。本手法は、視覚的観察を条件として、スコアマッチングとフローマッチングにより、ソースとターゲットの潜在的な把持空間間のマッピングを学習する。この変換を導くために、基本ポーズ、接触マップ、レンチ空間、操作性におけるアライメントを符号化する物理情報コスト関数を導入する。多様な手と物体のペアを対象とした実験により、我々のアプローチが、強い汎化性を持つ、安定した物理的根拠のある把持を生成することが実証された。本研究は、異種マニピュレータに対する意味的把持移動を可能にし、視覚に基づく把持と確率的生成モデリングの橋渡しをする。
要約(オリジナル)
We propose a new approach to vision-based dexterous grasp translation, which aims to transfer grasp intent across robotic hands with differing morphologies. Given a visual observation of a source hand grasping an object, our goal is to synthesize a functionally equivalent grasp for a target hand without requiring paired demonstrations or hand-specific simulations. We frame this problem as a stochastic transport between grasp distributions using the Schr\’odinger Bridge formalism. Our method learns to map between source and target latent grasp spaces via score and flow matching, conditioned on visual observations. To guide this translation, we introduce physics-informed cost functions that encode alignment in base pose, contact maps, wrench space, and manipulability. Experiments across diverse hand-object pairs demonstrate our approach generates stable, physically grounded grasps with strong generalization. This work enables semantic grasp transfer for heterogeneous manipulators and bridges vision-based grasping with probabilistic generative modeling.
arxiv情報
著者 | Tao Zhong,Jonah Buchanan,Christine Allen-Blanchette |
発行日 | 2025-06-03 06:08:51+00:00 |
arxivサイト | arxiv_id(pdf) |