Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?

要約

トランスフォーマーベースの軌道最適化手法は、オフライン強化学習 (オフライン RL) で優れたパフォーマンスを示していますが、パラメーター サイズが大きく、スケーラビリティが限られているため、課題が生じています。これは、ロボットなどのリソースが制限されている逐次意思決定シナリオでは特に重要です。
そして計算能力が限られたドローン。
Mamba は、有望な新しい線形時間シーケンス モデルであり、長いシーケンスで提供するパラメーターが大幅に少なくなりながら、トランスフォーマーと同等のパフォーマンスを提供します。
Mamba が軌道最適化と互換性があるかどうかは依然として不明であるため、この研究は、以下の洞察をもとに、データ構造とネットワーク アーキテクチャの側面からオフライン RL (DeMa と呼ばれる) における Decision Mamba の可能性を探るための包括的な実験を行うことを目的としています。
長いシーケンスは、DeMa のシーケンスへの焦点がほぼ指数関数的に減少するという事実により、パフォーマンスの向上に寄与することなく、重大な計算負荷を課します。
その結果、RNN のような DeMa ではなく、Transformer のような DeMa を導入します。
(2) DeMa のコンポーネントについては、隠れたアテンション メカニズムがその成功の鍵であることを確認しました。これは他の残差構造ともうまく機能し、位置の埋め込みを必要としません。
8 つの Atari ゲームからの広範な評価により、特別に設計された DeMa が軌道の最適化と互換性があり、以前の最先端の方法を上回り、30\% 少ないパラメータで Decision Transformer (DT) を 80\% 上回り、次の点で DT を上回っていることが実証されました。
パラメータが4分の1しかないMuJoCo。

要約(オリジナル)

Transformer-based trajectory optimization methods have demonstrated exceptional performance in offline Reinforcement Learning (offline RL), yet it poses challenges due to substantial parameter size and limited scalability, which is particularly critical in sequential decision-making scenarios where resources are constrained such as in robots and drones with limited computational power. Mamba, a promising new linear-time sequence model, offers performance on par with transformers while delivering substantially fewer parameters on long sequences. As it remains unclear whether Mamba is compatible with trajectory optimization, this work aims to conduct comprehensive experiments to explore the potential of Decision Mamba in offline RL (dubbed DeMa) from the aspect of data structures and network architectures with the following insights: (1) Long sequences impose a significant computational burden without contributing to performance improvements due to the fact that DeMa’s focus on sequences diminishes approximately exponentially. Consequently, we introduce a Transformer-like DeMa as opposed to an RNN-like DeMa. (2) For the components of DeMa, we identify that the hidden attention mechanism is key to its success, which can also work well with other residual structures and does not require position embedding. Extensive evaluations from eight Atari games demonstrate that our specially designed DeMa is compatible with trajectory optimization and surpasses previous state-of-the-art methods, outdoing Decision Transformer (DT) by 80\% with 30\% fewer parameters, and exceeds DT in MuJoCo with only a quarter of the parameters.

arxiv情報

著者 Yang Dai,Oubo Ma,Longfei Zhang,Xingxing Liang,Shengchao Hu,Mengzhu Wang,Shouling Ji,Jincai Huang,Li Shen
発行日 2024-05-20 15:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク