Goal-Conditioned Offline Reinforcement Learning via Metric Learning

要約

この研究では、目標条件付きオフライン強化学習のコンテキストで、次善のデータセットから最適な動作を学習するという問題に取り組みます。
そのために、我々は、スパース報酬、対称的かつ決定論的なアクションの下で、目標条件付きオフライン RL 問題の最適値関数を近似する新しい方法を提案します。
最適性を回復するための表現の特性を研究し、そのような特性につながる新しい最適化目標を提案します。
私たちは、学習値関数を使用して、アクター批判的な方法でポリシーの学習をガイドします。この方法を MetricRL と名付けます。
実験的に、最適ではないオフライン データセットからの学習において、私たちの方法が他のオフライン RL ベースラインよりも常に優れていることを示します。
さらに、高次元の観察や複数の目的のタスクを処理する際のこの方法の有効性を示します。

要約(オリジナル)

In this work, we address the problem of learning optimal behavior from sub-optimal datasets in the context of goal-conditioned offline reinforcement learning. To do so, we propose a novel way of approximating the optimal value function for goal-conditioned offline RL problems under sparse rewards, symmetric and deterministic actions. We study a property for representations to recover optimality and propose a new optimization objective that leads to such property. We use the learned value function to guide the learning of a policy in an actor-critic fashion, a method we name MetricRL. Experimentally, we show how our method consistently outperforms other offline RL baselines in learning from sub-optimal offline datasets. Moreover, we show the effectiveness of our method in dealing with high-dimensional observations and in multi-goal tasks.

arxiv情報

著者 Alfredo Reichlin,Miguel Vasco,Hang Yin,Danica Kragic
発行日 2024-02-16 16:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク