Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning

要約

オフラインからオンラインへの RL は、事前に収集されたオフライン データセットを最大限に活用してポリシーを初期化できるため、ポリシー トレーニングにオンライン アルゴリズムのみを使用する場合と比較して、サンプル効率が向上し、パフォーマンスが向上します。
ただし、事前トレーニングされたポリシーを直接微調整すると、最適なパフォーマンスが得られない傾向があります。
主な理由は、保守的なオフライン RL 手法ではエージェントの探索能力が低下し、その結果オンライン微調整パフォーマンスに影響を与えることです。
オンライン微調整中のエージェントの探索を促進し、オンライン微調整全体のパフォーマンスを向上させるために、Sample Efficient Reward Augmentation (SERA) と呼ばれる一般化された報酬増加方法を提案します。
具体的には、SERA は、固有の報酬として Q 条件付きエントロピーを計算することで、エージェントの探索を促します。
SERA の利点は、オフラインの事前トレーニング済み Q を広範囲に利用して、高値状態と低値状態の分布間の不均衡を考慮しながら、エージェントが状態空間を均一にカバーできるようにできることです。
さらに、SERA はさまざまな RL アルゴリズムに簡単に組み込むことができ、オンライン微調整を改善し、漸近的な改善を継続的に行うことができます。
さらに、広範な実験結果は、オフラインからオンラインへの問題を実行する際に、SERA がさまざまなオフライン アルゴリズムのパフォーマンスを一貫して効果的に向上させることを示しています。

要約(オリジナル)

Offline-to-online RL can make full use of pre-collected offline datasets to initialize policies, resulting in higher sample efficiency and better performance compared to only using online algorithms alone for policy training. However, direct fine-tuning of the pre-trained policy tends to result in sub-optimal performance. A primary reason is that conservative offline RL methods diminish the agent’s capability of exploration, thereby impacting online fine-tuning performance. To encourage agent’s exploration during online fine-tuning and enhance the overall online fine-tuning performance, we propose a generalized reward augmentation method called Sample Efficient Reward Augmentation (SERA). Specifically, SERA encourages agent to explore by computing Q conditioned entropy as intrinsic reward. The advantage of SERA is that it can extensively utilize offline pre-trained Q to encourage agent uniformly coverage of state space while considering the imbalance between the distributions of high-value and low-value states. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement. Moreover, extensive experimental results demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.

arxiv情報

著者 Ziqi Zhang,Xiao Xiong,Zifeng Zhuang,Jinxin Liu,Donglin Wang
発行日 2023-11-21 14:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク