要約
オフライン強化学習 (RL) は、探索にコストがかかる、または安全でない可能性がある現実世界のアプリケーションにとって非常に重要です。
ただし、オフラインで学習したポリシーは最適ではないことが多く、オンラインでさらに微調整する必要があります。
このペーパーでは、オフラインからオンラインへの微調整の基本的なジレンマに取り組みます。つまり、エージェントが悲観的なままであれば、より良いポリシーを学習できない可能性があり、一方、直接的に楽観的になると、パフォーマンスが突然低下する可能性があります。
このようなジレンマを解決するには、ベイジアン設計原則が重要であることを示します。
エージェントは、楽観的なポリシーや悲観的なポリシーを採用するのではなく、最適なポリシーに対する信念に一致する方法で行動する必要があります。
このような確率マッチング エージェントは、最適なポリシーを見つけることを保証しながら、突然のパフォーマンスの低下を回避できます。
理論的発見に基づいて、さまざまなベンチマークで既存の手法を上回る新しいアルゴリズムを導入し、私たちのアプローチの有効性を実証します。
全体として、提案されたアプローチは、オフラインからオンラインへの RL に関する新しい視点を提供し、オフライン データからのより効果的な学習を可能にする可能性があります。
要約(オリジナル)
Offline reinforcement learning (RL) is crucial for real-world applications where exploration can be costly or unsafe. However, offline learned policies are often suboptimal, and further online fine-tuning is required. In this paper, we tackle the fundamental dilemma of offline-to-online fine-tuning: if the agent remains pessimistic, it may fail to learn a better policy, while if it becomes optimistic directly, performance may suffer from a sudden drop. We show that Bayesian design principles are crucial in solving such a dilemma. Instead of adopting optimistic or pessimistic policies, the agent should act in a way that matches its belief in optimal policies. Such a probability-matching agent can avoid a sudden performance drop while still being guaranteed to find the optimal policy. Based on our theoretical findings, we introduce a novel algorithm that outperforms existing methods on various benchmarks, demonstrating the efficacy of our approach. Overall, the proposed approach provides a new perspective on offline-to-online RL that has the potential to enable more effective learning from offline data.
arxiv情報
著者 | Hao Hu,Yiqin Yang,Jianing Ye,Chengjie Wu,Ziqing Mai,Yujing Hu,Tangjie Lv,Changjie Fan,Qianchuan Zhao,Chongjie Zhang |
発行日 | 2024-05-31 16:31:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google