M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation

要約

マルチモーダル強化学習 (RL) の最も重要な側面の 1 つは、さまざまな観察モダリティを効果的に統合することです。
これらのモダリティから派生した堅牢かつ正確な表現を得ることが、RL アルゴリズムの堅牢性とサンプル効率を向上させる鍵となります。
しかし、視覚触覚データの RL 設定における表現の学習には、特にデータの高次元性と、視覚および触覚入力を動的環境およびタスクの目標と関連付けることに伴う複雑さにより、大きな課題が生じます。
これらの課題に対処するために、私たちはマルチモーダル対照的教師なし強化学習 (M2CURL) を提案します。
私たちのアプローチは、効率的な表現を学習し、RL アルゴリズムのより高速な収束に貢献する、新しいマルチモーダル自己教師あり学習手法を採用しています。
私たちの方法は RL アルゴリズムに依存しないため、利用可能な任意の RL アルゴリズムとの統合が可能になります。
Tactile Gym 2 シミュレーターで M2CURL を評価し、さまざまな操作タスクの学習効率が大幅に向上することを示しました。
これは、表現学習アプローチを使用しない標準的な RL アルゴリズムと比較して、収束速度が速く、エピソードごとの累積報酬が高いことで証明されています。

要約(オリジナル)

One of the most critical aspects of multimodal Reinforcement Learning (RL) is the effective integration of different observation modalities. Having robust and accurate representations derived from these modalities is key to enhancing the robustness and sample efficiency of RL algorithms. However, learning representations in RL settings for visuotactile data poses significant challenges, particularly due to the high dimensionality of the data and the complexity involved in correlating visual and tactile inputs with the dynamic environment and task objectives. To address these challenges, we propose Multimodal Contrastive Unsupervised Reinforcement Learning (M2CURL). Our approach employs a novel multimodal self-supervised learning technique that learns efficient representations and contributes to faster convergence of RL algorithms. Our method is agnostic to the RL algorithm, thus enabling its integration with any available RL algorithm. We evaluate M2CURL on the Tactile Gym 2 simulator and we show that it significantly enhances the learning efficiency in different manipulation tasks. This is evidenced by faster convergence rates and higher cumulative rewards per episode, compared to standard RL algorithms without our representation learning approach.

arxiv情報

著者 Fotios Lygerakis,Vedant Dave,Elmar Rueckert
発行日 2024-06-19 12:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク