Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL

要約

トランスフォーマ アーキテクチャを使用した条件付きシーケンス モデリングは、オフライン強化学習 (RL) タスクの処理では有効であることが実証されていますが、分布外の状態やアクションを処理するのは困難です。
既存の研究では、学習されたポリシーによるデータ拡張、または値ベースの RL アルゴリズムによる追加の制約の追加によって、この問題に対処しようとしています。
しかし、これらの研究は依然として次の課題を克服できていない:(1)ステップ間の履歴時間情報の利用が不十分である、(2)Return-to-go(RTG)、状態、アクション間のローカルなステップ内関係が見落とされている、(
3) ノイズの多いラベルを使用して次善の軌道をオーバーフィッティングする。
これらの課題に対処するために、私たちは、自己進化するポリシー学習戦略を備えた新しいマルチグレイン状態空間モデル (SSM) である Decision Mamba (DM) を提案します。
DM は、マンバ アーキテクチャを使用して、履歴の隠れた状態を明示的にモデル化し、一時的な情報を抽出します。
RTG、状態、アクションのトリプレット間の関係を捉えるために、きめの細かい SSM モジュールが設計され、mamba の元の粗い SSM に統合され、その結果、オフライン RL に合わせた新しい mamba アーキテクチャが実現します。
最後に、ノイズの多い軌道での過剰適合の問題を軽減するために、漸進的正則化を使用することで自己進化するポリシーが提案されます。
このポリシーは、自身の過去の知識を使用して次善のアクションを洗練することで進化し、騒々しいデモに対する堅牢性が強化されます。
さまざまなタスクに関する広範な実験により、DM が他のベースラインよりも大幅に優れていることが示されています。

要約(オリジナル)

While the conditional sequence modeling with the transformer architecture has demonstrated its effectiveness in dealing with offline reinforcement learning (RL) tasks, it is struggle to handle out-of-distribution states and actions. Existing work attempts to address this issue by data augmentation with the learned policy or adding extra constraints with the value-based RL algorithm. However, these studies still fail to overcome the following challenges: (1) insufficiently utilizing the historical temporal information among inter-steps, (2) overlooking the local intrastep relationships among return-to-gos (RTGs), states, and actions, (3) overfitting suboptimal trajectories with noisy labels. To address these challenges, we propose Decision Mamba (DM), a novel multi-grained state space model (SSM) with a self-evolving policy learning strategy. DM explicitly models the historical hidden state to extract the temporal information by using the mamba architecture. To capture the relationship among RTG-state-action triplets, a fine-grained SSM module is designed and integrated into the original coarse-grained SSM in mamba, resulting in a novel mamba architecture tailored for offline RL. Finally, to mitigate the overfitting issue on noisy trajectories, a self-evolving policy is proposed by using progressive regularization. The policy evolves by using its own past knowledge to refine the suboptimal actions, thus enhancing its robustness on noisy demonstrations. Extensive experiments on various tasks show that DM outperforms other baselines substantially.

arxiv情報

著者 Qi Lv,Xiang Deng,Gongwei Chen,Michael Yu Wang,Liqiang Nie
発行日 2025-01-22 15:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク