要約
強化学習 (RL) はシーケンス モデリング問題として定式化でき、モデルは過去の状態、行動、報酬のシーケンスに基づいて将来の行動を予測します。
現在のアプローチでは通常、オフライン RL 設定で環境をモデル化するために長い軌道シーケンスが必要です。
ただし、これらのモデルは長期表現の記憶に過度に依存する傾向があり、タスク固有の関連性に基づいて軌跡や学習された表現の重要性を効果的に判断する能力が損なわれます。
この研究では、短期的な行動、報酬、状態のシーケンスから構築された因果グラフとして軌跡を表す新しいアプローチである AdaCred を紹介します。
私たちのモデルは、重要度の低い表現をクレジットして削除することで制御ポリシーを適応的に学習し、下流のタスクに最も関連性の高い表現のみを保持します。
私たちの実験では、AdaCred ベースのポリシーはより短い軌道シーケンスを必要とし、オフラインの強化学習環境と模倣学習環境の両方で従来の方法よりも一貫して優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Reinforcement learning (RL) can be formulated as a sequence modeling problem, where models predict future actions based on historical state-action-reward sequences. Current approaches typically require long trajectory sequences to model the environment in offline RL settings. However, these models tend to over-rely on memorizing long-term representations, which impairs their ability to effectively attribute importance to trajectories and learned representations based on task-specific relevance. In this work, we introduce AdaCred, a novel approach that represents trajectories as causal graphs built from short-term action-reward-state sequences. Our model adaptively learns control policy by crediting and pruning low-importance representations, retaining only those most relevant for the downstream task. Our experiments demonstrate that AdaCred-based policies require shorter trajectory sequences and consistently outperform conventional methods in both offline reinforcement learning and imitation learning environments.
arxiv情報
著者 | Hemant Kumawat,Saibal Mukhopadhyay |
発行日 | 2024-12-19 22:22:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google