要約
オフライン強化学習 (RL) の将来的な応用には、その後のオンライン微調整のために既存の静的データセットを使用して事前トレーニングされたポリシーを初期化することが含まれます。
ただし、オフラインで事前トレーニングされたポリシーを直接微調整すると、最適なパフォーマンスが得られないことがよくあります。
主な理由は、オフラインの保守的な方法ではエージェントの探索能力が低下し、その結果オンラインの微調整パフォーマンスに影響を与えることです。
オンライン微調整中の探索を強化し、オンライン微調整全体のパフォーマンスを向上させるために、Sample Efficient Reward Augmentation (SERA) と呼ばれる一般化された報酬増加フレームワークを導入します。
SERA は、エージェントの探索を促す固有の報酬を設計することで、オンライン微調整のパフォーマンスを向上させることを目指しています。
具体的には、状態マージナル マッチング (SMM) を暗黙的に実装し、分布外 (OOD) 状態アクションにペナルティを科すことで、エージェントが目標状態密度をカバーするよう促し、より良いオンライン微調整結果を達成します。
さらに、SERA はさまざまな RL アルゴリズムに簡単に組み込むことができ、オンライン微調整を向上させ、漸近的な改善を持続的に保証することができ、SERA の多用途性と有効性を示しています。
さらに、広範な実験結果により、オフラインからオンラインへの問題を実行する際に、SERA がさまざまなオフライン アルゴリズムのパフォーマンスを一貫して効果的に向上させることが実証されます。
要約(オリジナル)
A prospective application of offline reinforcement learning (RL) involves initializing a pre-trained policy using existing static datasets for subsequent online fine-tuning. However, direct fine-tuning of the offline pre-trained policy often results in sub-optimal performance. A primary reason is that offline conservative methods diminish the agent’s capability of exploration, thereby impacting online fine-tuning performance. To enhance exploration during online fine-tuning and thus enhance the overall online fine-tuning performance, we introduce a generalized reward augmentation framework called Sample Efficient Reward Augmentation (SERA). SERA aims to improve the performance of online fine-tuning by designing intrinsic rewards that encourage the agent to explore. Specifically, it implicitly implements State Marginal Matching (SMM) and penalizes out-of-distribution (OOD) state actions, thus encouraging agents to cover the target state density, and achieving better online fine-tuning results. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement, showing the versatility as well as the effectiveness of SERA. Moreover, extensive experimental results will demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.
arxiv情報
著者 | Ziqi Zhang,Xiao Xiong,Zifeng Zhuang,Jinxin Liu,Donglin Wang |
発行日 | 2023-11-10 12:53:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google