MaIL: Improving Imitation Learning with Mamba

要約

この研究では、最先端 (SoTA) Transformer ポリシーに代わる計算効率の高い代替手段を提供する新しい模倣学習 (IL) アーキテクチャである Mamba Imitation Learning (MaIL) を紹介します。
トランスフォーマーベースのポリシーは、本質的に非マルコフ動作を持つ人間が記録したデータを処理できるため、目覚ましい成果を上げています。
ただし、その高いパフォーマンスには、効果的なトレーニングが複雑になる大規模なモデルという欠点があります。
状態空間モデル (SSM) は効率が良いことで知られていますが、Transformer のパフォーマンスに匹敵するものではありませんでした。
Mamba は SSM とトランスフォーマーに対するライバルのパフォーマンスを大幅に向上させ、IL ポリシーの魅力的な代替手段として位置づけています。
MaIL は Mamba をバックボーンとして活用し、エンコーダ/デコーダ構造で Mamba を使用できる形式を導入します。
この形式主義により、スタンドアロン ポリシーとして、または拡散プロセスのディフューザーなどのより高度なアーキテクチャの一部として使用できる多用途のアーキテクチャになります。
LIBERO IL ベンチマークの広範な評価と 3 つの実際のロボット実験により、MaIL が次のことを示しました: i) すべての LIBERO タスクで Transformers よりも優れたパフォーマンスを発揮する、ii) 小規模なデータセットでも優れたパフォーマンスを達成する、iii) マルチモーダルな感覚入力を効果的に処理できる、iv)
トランスと比べて入力ノイズに強いです。

要約(オリジナル)

This work introduces Mamba Imitation Learning (MaIL), a novel imitation learning (IL) architecture that offers a computationally efficient alternative to state-of-the-art (SoTA) Transformer policies. Transformer-based policies have achieved remarkable results due to their ability in handling human-recorded data with inherently non-Markovian behavior. However, their high performance comes with the drawback of large models that complicate effective training. While state space models (SSMs) have been known for their efficiency, they were not able to match the performance of Transformers. Mamba significantly improves the performance of SSMs and rivals against Transformers, positioning it as an appealing alternative for IL policies. MaIL leverages Mamba as a backbone and introduces a formalism that allows using Mamba in the encoder-decoder structure. This formalism makes it a versatile architecture that can be used as a standalone policy or as part of a more advanced architecture, such as a diffuser in the diffusion process. Extensive evaluations on the LIBERO IL benchmark and three real robot experiments show that MaIL: i) outperforms Transformers in all LIBERO tasks, ii) achieves good performance even with small datasets, iii) is able to effectively process multi-modal sensory inputs, iv) is more robust to input noise compared to Transformers.

arxiv情報

著者 Xiaogang Jia,Qian Wang,Atalay Donat,Bowen Xing,Ge Li,Hongyi Zhou,Onur Celik,Denis Blessing,Rudolf Lioutikov,Gerhard Neumann
発行日 2024-06-12 14:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク