要約
画像、音声、モーション、圧力の4つの触覚モダリティにわたる最初の多感覚タッチ表現であるSparsh-Xを紹介します。
Digit 360センサーで収集された〜1mの接触豊富な相互作用でトレーニングされたSparsh-Xは、多様な時間的および空間スケールで補完的なタッチ信号をキャプチャします。
Sparsh-Xは、自己科学の学習を活用することにより、これらのモダリティを、ロボット操作タスクに役立つ物理的特性をキャプチャする統一表現に融合します。
SIMトレーニングを受けたポリシーの模倣学習と触覚的適応の両方の現実世界のタッチ表現を効果的に統合する方法を研究します。SPARSH-Xは、タッチからオブジェクト状態を回収する際に触覚画像を使用してエンドツーエンドモデルでポリシーの成功率を63%増加させ、エンドツーエンドモデルで63%増加させることを示しています。
最後に、オブジェクトアクションの識別、材料と量の推定、力の推定など、物理的特性について推論するSPARSH-X能力をベンチマークします。
SPARSH-Xは、エンドツーエンドのアプローチと比較して、物理的特性を48%の特性評価の精度を向上させ、巧妙な操作に不可欠な機能をキャプチャするための多感覚前削除の利点を示しています。
要約(オリジナル)
We present Sparsh-X, the first multisensory touch representations across four tactile modalities: image, audio, motion, and pressure. Trained on ~1M contact-rich interactions collected with the Digit 360 sensor, Sparsh-X captures complementary touch signals at diverse temporal and spatial scales. By leveraging self-supervised learning, Sparsh-X fuses these modalities into a unified representation that captures physical properties useful for robot manipulation tasks. We study how to effectively integrate real-world touch representations for both imitation learning and tactile adaptation of sim-trained policies, showing that Sparsh-X boosts policy success rates by 63% over an end-to-end model using tactile images and improves robustness by 90% in recovering object states from touch. Finally, we benchmark Sparsh-X ability to make inferences about physical properties, such as object-action identification, material-quantity estimation, and force estimation. Sparsh-X improves accuracy in characterizing physical properties by 48% compared to end-to-end approaches, demonstrating the advantages of multisensory pretraining for capturing features essential for dexterous manipulation.
arxiv情報
著者 | Carolina Higuera,Akash Sharma,Taosha Fan,Chaithanya Krishna Bodduluri,Byron Boots,Michael Kaess,Mike Lambeta,Tingfan Wu,Zixi Liu,Francois Robert Hogan,Mustafa Mukadam |
発行日 | 2025-06-17 17:49:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google