要約
模倣学習には高品質のデータへのアクセスが必要ですが、オフライン強化学習 (RL) は、原則として、価値関数を使用することで大幅に低いデータ品質でも同等以上のパフォーマンスを発揮するはずです。
ただし、現在の結果は、オフライン RL のパフォーマンスが模倣学習よりも劣ることが多く、何がオフライン RL のパフォーマンスを妨げているのかが不明なことが多いことを示しています。
この観察を動機として、私たちは現在のオフライン RL アルゴリズムのボトルネックを理解することを目指しています。
オフライン RL のパフォーマンスの低下は通常、不完全な値関数に起因すると考えられますが、オフライン RL の主なボトルネックは本当に値関数の学習にあるのでしょうか、それとも他の何かなのでしょうか?
この質問に答えるために、オフライン RL 問題における (1) 価値学習、(2) ポリシー抽出、および (3) ポリシー一般化に関する体系的な実証研究を実行し、これらのコンポーネントがパフォーマンスにどのように影響するかを分析します。
私たちは 2 つの驚くべき観察をします。
まず、ポリシー抽出アルゴリズムの選択が、値の学習目標よりもオフライン RL のパフォーマンスとスケーラビリティに大きく影響することがわかりました。
たとえば、一般的な値に重み付けされた動作クローニング目標 (AWR など) では学習値関数が十分に活用されておらず、動作が制約されたポリシー勾配目標 (DDPG+BC など) に切り替えると、パフォーマンスが大幅に向上することが多いことがわかります。
そしてスケーラビリティ。
第 2 に、オフライン RL のパフォーマンス向上に対する大きな障壁となるのは、配布中の状態に関するポリシー学習ではなく、トレーニング データのサポートからのテスト時の状態に対するポリシーの一般化が不完全であることが多いことがわかります。
次に、最適ではないがカバレッジの高いデータまたはテスト時ポリシーのトレーニング手法を使用することで、実際にこの一般化の問題に対処できることを示します。
具体的には、2 つの単純なテスト時ポリシーの改善方法を提案し、これらの方法がパフォーマンスの向上につながることを示します。
要約(オリジナル)
While imitation learning requires access to high-quality data, offline reinforcement learning (RL) should, in principle, perform similarly or better with substantially lower data quality by using a value function. However, current results indicate that offline RL often performs worse than imitation learning, and it is often unclear what holds back the performance of offline RL. Motivated by this observation, we aim to understand the bottlenecks in current offline RL algorithms. While poor performance of offline RL is typically attributed to an imperfect value function, we ask: is the main bottleneck of offline RL indeed in learning the value function, or something else? To answer this question, we perform a systematic empirical study of (1) value learning, (2) policy extraction, and (3) policy generalization in offline RL problems, analyzing how these components affect performance. We make two surprising observations. First, we find that the choice of a policy extraction algorithm significantly affects the performance and scalability of offline RL, often more so than the value learning objective. For instance, we show that common value-weighted behavioral cloning objectives (e.g., AWR) do not fully leverage the learned value function, and switching to behavior-constrained policy gradient objectives (e.g., DDPG+BC) often leads to substantial improvements in performance and scalability. Second, we find that a big barrier to improving offline RL performance is often imperfect policy generalization on test-time states out of the support of the training data, rather than policy learning on in-distribution states. We then show that the use of suboptimal but high-coverage data or test-time policy training techniques can address this generalization issue in practice. Specifically, we propose two simple test-time policy improvement methods and show that these methods lead to better performance.
arxiv情報
著者 | Seohong Park,Kevin Frans,Sergey Levine,Aviral Kumar |
発行日 | 2024-06-13 17:07:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google