Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning

要約

オフライン強化学習 (RL) の将来的な応用には、その後のオンライン微調整のために既存の静的データセットを使用して事前トレーニングされたポリシーを初期化することが含まれます。
ただし、オフラインで事前トレーニングされたポリシーを直接微調整すると、最適なパフォーマンスが得られないことがよくあります。
主な理由は、オフラインの保守的な方法ではエージェントの探索能力が低下し、その結果オンラインの微調整パフォーマンスに影響を与えることです。
オンライン微調整中の探索を強化し、オンライン微調整全体のパフォーマンスを向上させるために、Sample Efficient Reward Augmentation (SERA) と呼ばれる一般化された報酬増加フレームワークを導入します。
SERA は、エージェントの探索を促す固有の報酬を設計することで、オンライン微調整のパフォーマンスを向上させることを目指しています。
具体的には、状態マージナル マッチング (SMM) を暗黙的に実装し、分布外 (OOD) 状態アクションにペナルティを科すことで、エージェントが目標状態密度をカバーするよう促し、より良いオンライン微調整結果を達成します。
さらに、SERA はさまざまな RL アルゴリズムに簡単に組み込むことができ、オンライン微調整を向上させ、漸近的な改善を持続的に保証することができ、SERA の多用途性と有効性を示しています。
さらに、広範な実験結果により、オフラインからオンラインへの問題を実行する際に、SERA がさまざまなオフライン アルゴリズムのパフォーマンスを一貫して効果的に向上させることが実証されます。

要約(オリジナル)

A prospective application of offline reinforcement learning (RL) involves initializing a pre-trained policy using existing static datasets for subsequent online fine-tuning. However, direct fine-tuning of the offline pre-trained policy often results in sub-optimal performance. A primary reason is that offline conservative methods diminish the agent’s capability of exploration, thereby impacting online fine-tuning performance. To enhance exploration during online fine-tuning and thus enhance the overall online fine-tuning performance, we introduce a generalized reward augmentation framework called Sample Efficient Reward Augmentation (SERA). SERA aims to improve the performance of online fine-tuning by designing intrinsic rewards that encourage the agent to explore. Specifically, it implicitly implements State Marginal Matching (SMM) and penalizes out-of-distribution (OOD) state actions, thus encouraging agents to cover the target state density, and achieving better online fine-tuning results. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement, showing the versatility as well as the effectiveness of SERA. Moreover, extensive experimental results will demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.

arxiv情報

著者 Ziqi Zhang,Xiao Xiong,Zifeng Zhuang,Jinxin Liu,Donglin Wang
発行日 2023-11-10 12:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク