Hierarchical Decision Mamba

要約

模倣学習における最近の進歩は、タスクの動作を効果的に模倣するための構造化された情報の流れを提供するシーケンス モデルの統合によって主に促進されています。
現在、Decision Transformer (DT) とその後の Hierarchical Decision Transformer (HDT) は、タスク ポリシーを学習するための Transformer ベースのアプローチを提示しました。
最近、Mamba アーキテクチャがさまざまなタスク ドメインにわたって Transformers よりも優れたパフォーマンスを発揮することが示されました。
この作業では、Transformer モデルのパフォーマンスを向上させることを目的とした、Decision Mamba (DM) と Hierarchical Decision Mamba (HDM) という 2 つの新しいメソッドを導入します。
OpenAI Gym や D4RL などのさまざまな環境にわたる広範な実験を通じて、さまざまなデモンストレーション データセットを活用し、大部分のタスクにおいて Mamba モデルが Transformer モデルよりも優れていることを実証しました。
結果は、HDM がほとんどの設定で他の方法よりも優れていることを示しています。
コードは https://github.com/meowatthemoon/HierarchicalDecisionMamba にあります。

要約(オリジナル)

Recent advancements in imitation learning have been largely fueled by the integration of sequence models, which provide a structured flow of information to effectively mimic task behaviours. Currently, Decision Transformer (DT) and subsequently, the Hierarchical Decision Transformer (HDT), presented Transformer-based approaches to learn task policies. Recently, the Mamba architecture has shown to outperform Transformers across various task domains. In this work, we introduce two novel methods, Decision Mamba (DM) and Hierarchical Decision Mamba (HDM), aimed at enhancing the performance of the Transformer models. Through extensive experimentation across diverse environments such as OpenAI Gym and D4RL, leveraging varying demonstration data sets, we demonstrate the superiority of Mamba models over their Transformer counterparts in a majority of tasks. Results show that HDM outperforms other methods in most settings. The code can be found at https://github.com/meowatthemoon/HierarchicalDecisionMamba.

arxiv情報

著者 André Correia,Luís A. Alexandre
発行日 2024-05-13 17:18:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク