IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control

要約

モデルベースの強化学習 (RL) は、そのサンプル効率のおかげで大きな有望性を示していますが、特にエージェントが固定データセットから学習するオフライン設定では、長期にわたるスパース報酬タスクにはまだ苦労しています。
モデルベースの RL エージェントは長期的な計画能力が欠如しているため、これらの環境では苦戦しており、環境の時間的に抽象的なモデルで計画を立てることでこの問題を軽減できると仮説を立てています。
この論文では、私たちは 2 つの重要な貢献を行っています。 1) 最先端のモデル予測制御のための時間差分学習 (TD-MPC) を拡張する、オフライン モデルベースの RL アルゴリズム IQL-TD-MPC を導入します。
暗黙的 Q ラーニング (IQL) を使用。
2) 階層設定で IQL-TD-MPC をマネージャーとして使用し、市販のオフライン RL アルゴリズムをワーカーとして使用することを提案します。
より具体的には、時間的に抽象的な IQL-TD-MPC マネージャーを事前トレーニングし、計画を通じてサブゴールにほぼ対応する「インテントの埋め込み」を予測します。
IQL-TD-MPC マネージャーによって生成されたインテント埋め込みを使用して状態表現を強化すると、最も困難な D4RL ベンチマーク タスクのいくつかで既製のオフライン RL エージェントのパフォーマンスが大幅に向上することが経験的に示されています。
たとえば、オフライン RL アルゴリズム AWAC、TD3-BC、DT、および CQL はすべて、中規模および大規模なアントメイズ タスクで正規化評価スコアがゼロまたはゼロに近い値を取得しますが、今回の修正では平均スコアが 40 を超えています。

要約(オリジナル)

Model-based reinforcement learning (RL) has shown great promise due to its sample efficiency, but still struggles with long-horizon sparse-reward tasks, especially in offline settings where the agent learns from a fixed dataset. We hypothesize that model-based RL agents struggle in these environments due to a lack of long-term planning capabilities, and that planning in a temporally abstract model of the environment can alleviate this issue. In this paper, we make two key contributions: 1) we introduce an offline model-based RL algorithm, IQL-TD-MPC, that extends the state-of-the-art Temporal Difference Learning for Model Predictive Control (TD-MPC) with Implicit Q-Learning (IQL); 2) we propose to use IQL-TD-MPC as a Manager in a hierarchical setting with any off-the-shelf offline RL algorithm as a Worker. More specifically, we pre-train a temporally abstract IQL-TD-MPC Manager to predict ‘intent embeddings’, which roughly correspond to subgoals, via planning. We empirically show that augmenting state representations with intent embeddings generated by an IQL-TD-MPC manager significantly improves off-the-shelf offline RL agents’ performance on some of the most challenging D4RL benchmark tasks. For instance, the offline RL algorithms AWAC, TD3-BC, DT, and CQL all get zero or near-zero normalized evaluation scores on the medium and large antmaze tasks, while our modification gives an average score over 40.

arxiv情報

著者 Rohan Chitnis,Yingchen Xu,Bobak Hashemi,Lucas Lehnert,Urun Dogan,Zheqing Zhu,Olivier Delalleau
発行日 2023-06-01 16:24:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク