Sparsh: Self-supervised touch representations for vision-based tactile sensing

要約

この研究では、ますますアクセスしやすくなっている視覚ベースの触覚センサーのクラス向けに、汎用のタッチ表現を導入します。
このようなセンサーは視覚を著しく補完するため、最近のロボット操作の多くの進歩につながっていますが、今日のソリューションは多くの場合、タスクおよびセンサー固有の手作りの認識モデルに依存しています。
接触力や滑りなどのタスク中心のグラウンドトゥルースラベルを使用して実際のデータを大規模に収集することは、照明やゲルマーキングなどの側面が異なるさまざまなフォームファクターのセンサーによってさらに困難になります。
これに取り組むために、コンピューター ビジョンで顕著なパフォーマンスを実証している自己教師あり学習 (SSL) に注目します。
さまざまなビジョンベースの触覚センサーをサポートできる SSL モデルのファミリーである Sparsh を紹介します。これにより、ピクセルおよび潜在空間でのマスキングと自己蒸留による 460,000 以上の触覚画像の事前トレーニングを通じてカスタム ラベルの必要性が軽減されます。
また、センサーやモデルにわたる標準化されたベンチマークを容易にする TacBench も構築します。これは、触覚特性の理解から物理的知覚と操作計画の実現に至る 6 つのタスクで構成されます。
評価では、タッチ表現の SSL 事前トレーニングがタスクおよびセンサー固有のエンドツーエンド トレーニングよりも TacBench よりも平均 95.1% 優れており、Sparsh (DINO) と Sparsh (IJEPA) が最も競争力が高いことがわかりました。
触覚の潜在空間で学習するメリット
プロジェクトページ:https://sparsh-ssl.github.io/

要約(オリジナル)

In this work, we introduce general purpose touch representations for the increasingly accessible class of vision-based tactile sensors. Such sensors have led to many recent advances in robot manipulation as they markedly complement vision, yet solutions today often rely on task and sensor specific handcrafted perception models. Collecting real data at scale with task centric ground truth labels, like contact forces and slip, is a challenge further compounded by sensors of various form factor differing in aspects like lighting and gel markings. To tackle this we turn to self-supervised learning (SSL) that has demonstrated remarkable performance in computer vision. We present Sparsh, a family of SSL models that can support various vision-based tactile sensors, alleviating the need for custom labels through pre-training on 460k+ tactile images with masking and self-distillation in pixel and latent spaces. We also build TacBench, to facilitate standardized benchmarking across sensors and models, comprising of six tasks ranging from comprehending tactile properties to enabling physical perception and manipulation planning. In evaluations, we find that SSL pre-training for touch representation outperforms task and sensor-specific end-to-end training by 95.1% on average over TacBench, and Sparsh (DINO) and Sparsh (IJEPA) are the most competitive, indicating the merits of learning in latent space for tactile images. Project page: https://sparsh-ssl.github.io/

arxiv情報

著者 Carolina Higuera,Akash Sharma,Chaithanya Krishna Bodduluri,Taosha Fan,Patrick Lancaster,Mrinal Kalakrishnan,Michael Kaess,Byron Boots,Mike Lambeta,Tingfan Wu,Mustafa Mukadam
発行日 2024-10-31 16:22:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク