The Power of the Senses: Generalizable Manipulation from Vision and Touch through Masked Multimodal Learning

要約

人間は、最も重要な作業において、感覚の相乗効果に依存しています。
オブジェクトの操作が必要なタスクでは、視覚と触覚の相補性をシームレスかつ効果的に活用します。
この論文は、そのような機能からインスピレーションを得て、強化学習設定で視覚情報と触覚情報を融合する体系的なアプローチを見つけることを目的としています。
我々は、マスクされた自動エンコーディングに基づいてポリシーと視覚触覚表現を共同で学習するマスクされたマルチモーダル学習(M3L)を提案します。
視覚と触覚から共同して学習した表現により、サンプル効率が向上し、それぞれの感覚を通じて個別に達成できる能力を超えた汎化能力が解放されます。
注目すべきことに、マルチモーダル設定で学習された表現は、テスト時の視覚のみのポリシーにも役立ちます。
ロボットによる挿入、ドアの開閉、手の器用な操作という視覚と触覚の両方を観察して 3 つの模擬環境で M3L を評価し、マルチモーダル ポリシーを学習する利点を実証します。
実験のコードとビデオは https://sferrazza.cc/m3l_site で入手できます。

要約(オリジナル)

Humans rely on the synergy of their senses for most essential tasks. For tasks requiring object manipulation, we seamlessly and effectively exploit the complementarity of our senses of vision and touch. This paper draws inspiration from such capabilities and aims to find a systematic approach to fuse visual and tactile information in a reinforcement learning setting. We propose Masked Multimodal Learning (M3L), which jointly learns a policy and visual-tactile representations based on masked autoencoding. The representations jointly learned from vision and touch improve sample efficiency, and unlock generalization capabilities beyond those achievable through each of the senses separately. Remarkably, representations learned in a multimodal setting also benefit vision-only policies at test time. We evaluate M3L on three simulated environments with both visual and tactile observations: robotic insertion, door opening, and dexterous in-hand manipulation, demonstrating the benefits of learning a multimodal policy. Code and videos of the experiments are available at https://sferrazza.cc/m3l_site.

arxiv情報

著者 Carmelo Sferrazza,Younggyo Seo,Hao Liu,Youngwoon Lee,Pieter Abbeel
発行日 2023-11-02 01:33:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク