Mamba as a motion encoder for robotic imitation learning

要約

最近の模倣学習の進歩、特に LLM 技術の統合により、ロボットの器用さと適応性が大幅に向上すると予想されています。
この論文では、LLM での潜在的なアプリケーションを備えた最先端のアーキテクチャである Mamba をロボット模倣学習に使用することを提案し、コンテキスト情報を効果的にキャプチャするエンコーダーとして機能する Mamba の機能を強調します。
状態空間の次元を減らすことにより、Mamba はオートエンコーダーと同様に動作します。
正確な動き予測に必要な重要な時間ダイナミクスを維持しながら、連続情報を状態変数に効果的に圧縮します。
カップの配置やケースの装填などのタスクにおける実験結果は、Mamba がより高い推定誤差を示しているにもかかわらず、実際のタスクの実行では Transformers と比較して優れた成功率を達成していることを示しています。
このパフォーマンスは、状態空間モデルを包含する Mamba の構造によるものです。
さらに、この研究では、限られた量のトレーニング データを使用してリアルタイム モーション ジェネレーターとして機能する Mamba の能力も調査されています。

要約(オリジナル)

Recent advancements in imitation learning, particularly with the integration of LLM techniques, are set to significantly improve robots’ dexterity and adaptability. This paper proposes using Mamba, a state-of-the-art architecture with potential applications in LLMs, for robotic imitation learning, highlighting its ability to function as an encoder that effectively captures contextual information. By reducing the dimensionality of the state space, Mamba operates similarly to an autoencoder. It effectively compresses the sequential information into state variables while preserving the essential temporal dynamics necessary for accurate motion prediction. Experimental results in tasks such as cup placing and case loading demonstrate that despite exhibiting higher estimation errors, Mamba achieves superior success rates compared to Transformers in practical task execution. This performance is attributed to Mamba’s structure, which encompasses the state space model. Additionally, the study investigates Mamba’s capacity to serve as a real-time motion generator with a limited amount of training data.

arxiv情報

著者 Toshiaki Tsuji
発行日 2024-09-25 12:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク