要約
オフライン強化学習 (RL) は、オフライン データセットのみを使用して順次決定ポリシーを推測することを目的としています。
これは特に困難な設定です。特に、与えられたシナリオの下で、まばらな報酬のみで複数の異なる目標または結果を達成することを学ぶ場合はなおさらです。
教師あり学習による目標条件付きポリシーのオフライン学習の場合、以前の研究では、利点で重み付けされた対数尤度損失が単調なポリシーの改善を保証することが示されています。
この作業では、その利点にもかかわらず、このアプローチは、分布のシフトとマルチモダリティの問題に完全に対処するにはまだ不十分であると主張しています。
後者は、複数の競合する可能性のある解決策が存在する可能性があるため、状態から目的の目標に至る一意で最適なポリシーを見つけることが困難な長期的なタスクでは特に深刻です。
これらの課題に取り組むために、誘導バイアスの追加のソースを導入する補完的な利点ベースの重み付けスキームを提案します。状態空間の値ベースの分割を考えると、到達しやすいターゲット領域につながると予想されるアクションの寄与、
最終目標と比較して、さらに増加します。
経験的に、提案されたアプローチである Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG) が、一般的に使用されるベンチマークでいくつかの競合するオフライン アルゴリズムよりも優れていることを実証します。
分析的には、学習したポリシーが基本的な動作ポリシーよりも決して悪くないことを保証します。
要約(オリジナル)
Offline reinforcement learning (RL) aims to infer sequential decision policies using only offline datasets. This is a particularly difficult setup, especially when learning to achieve multiple different goals or outcomes under a given scenario with only sparse rewards. For offline learning of goal-conditioned policies via supervised learning, previous work has shown that an advantage weighted log-likelihood loss guarantees monotonic policy improvement. In this work we argue that, despite its benefits, this approach is still insufficient to fully address the distribution shift and multi-modality problems. The latter is particularly severe in long-horizon tasks where finding a unique and optimal policy that goes from a state to the desired goal is challenging as there may be multiple and potentially conflicting solutions. To tackle these challenges, we propose a complementary advantage-based weighting scheme that introduces an additional source of inductive bias: given a value-based partitioning of the state space, the contribution of actions expected to lead to target regions that are easier to reach, compared to the final goal, is further increased. Empirically, we demonstrate that the proposed approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG), outperforms several competing offline algorithms in commonly used benchmarks. Analytically, we offer a guarantee that the learnt policy is never worse than the underlying behaviour policy.
arxiv情報
著者 | Mianchu Wang,Yue Jin,Giovanni Montana |
発行日 | 2023-03-16 14:52:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google