Goal-conditioned Offline Reinforcement Learning through State Space Partitioning

要約

オフライン強化学習 (RL) は、オフライン データセットのみを使用して逐次的な意思決定ポリシーを推論することを目的としています。
これは、特に報酬がまばらな特定のシナリオの下で複数の異なる目標や結果を達成する方法を学習する場合、特に難しい設定です。
教師あり学習による目標条件付きポリシーのオフライン学習については、これまでの研究で、アドバンテージ重み付き対数尤度損失が単調なポリシーの改善を保証することが示されています。
この研究では、このアプローチには利点があるにもかかわらず、流通の変化とマルチモダリティの問題に完全に対処するにはまだ不十分であると主張します。
後者は、複数の潜在的に競合する解決策が存在する可能性があるため、ある状態から望ましい目標に向かう独自の最適なポリシーを見つけることが困難な長期的なタスクでは特に深刻です。
これらの課題に取り組むために、我々は、追加の誘導バイアス源を導入する補完的な利点ベースの重み付けスキームを提案します。状態空間の値ベースの分割を考慮すると、より容易に到達できるターゲット領域につながると予想されるアクションの寄与、
最終目標と比較して、さらに増加し​​ました。
我々は、提案されたアプローチであるデュアルアドバンテージ重み付けオフライン目標条件付き RL (DAWOG) が、一般的に使用されるベンチマークにおいて競合するいくつかのオフライン アルゴリズムよりも優れたパフォーマンスを発揮することを経験的に示しています。
分析的には、学習されたポリシーが基礎となる動作ポリシーよりも悪くなることは決してないという保証を提供します。

要約(オリジナル)

Offline reinforcement learning (RL) aims to infer sequential decision policies using only offline datasets. This is a particularly difficult setup, especially when learning to achieve multiple different goals or outcomes under a given scenario with only sparse rewards. For offline learning of goal-conditioned policies via supervised learning, previous work has shown that an advantage weighted log-likelihood loss guarantees monotonic policy improvement. In this work we argue that, despite its benefits, this approach is still insufficient to fully address the distribution shift and multi-modality problems. The latter is particularly severe in long-horizon tasks where finding a unique and optimal policy that goes from a state to the desired goal is challenging as there may be multiple and potentially conflicting solutions. To tackle these challenges, we propose a complementary advantage-based weighting scheme that introduces an additional source of inductive bias: given a value-based partitioning of the state space, the contribution of actions expected to lead to target regions that are easier to reach, compared to the final goal, is further increased. Empirically, we demonstrate that the proposed approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG), outperforms several competing offline algorithms in commonly used benchmarks. Analytically, we offer a guarantee that the learnt policy is never worse than the underlying behaviour policy.

arxiv情報

著者 Mianchu Wang,Yue Jin,Giovanni Montana
発行日 2024-05-16 17:07:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク