Enhancing Online Reinforcement Learning with Meta-Learned Objective from Offline Data

要約

強化学習 (RL) における大きな課題は、まばらな報酬から最適なポリシーを学習することが難しいことです。
これまでの研究では、手動で作成された補助目標を介して従来の模倣学習 (IL) を使用してオンライン RL を強化しましたが、その代償として、オフライン データが非専門家ポリシーによって生成された場合に RL ポリシーが最適にならないように制限されました。
代わりに、オフライン データの貴重な情報をより効果的に活用するために、オフライン データから知識を抽出し、最適なポリシーに向けた内発的動機を植え付ける目的をメタ学習する、デモンストレーションからの一般化模倣学習 (GILD) を開発しました。
特定の RL アルゴリズムに限定された以前の作品とは異なり、GILD は、多様なバニラのオフポリシー RL アルゴリズムを対象とした柔軟なモジュールです。
さらに、GILD ではドメイン固有のハイパーパラメータが導入されず、計算コストの増加が最小限に抑えられます。
報酬がまばらな 4 つの困難な MuJoCo タスクで、GILD で強化された 3 つの RL アルゴリズムが最先端の手法を大幅に上回るパフォーマンスを示しました。

要約(オリジナル)

A major challenge in Reinforcement Learning (RL) is the difficulty of learning an optimal policy from sparse rewards. Prior works enhance online RL with conventional Imitation Learning (IL) via a handcrafted auxiliary objective, at the cost of restricting the RL policy to be sub-optimal when the offline data is generated by a non-expert policy. Instead, to better leverage valuable information in offline data, we develop Generalized Imitation Learning from Demonstration (GILD), which meta-learns an objective that distills knowledge from offline data and instills intrinsic motivation towards the optimal policy. Distinct from prior works that are exclusive to a specific RL algorithm, GILD is a flexible module intended for diverse vanilla off-policy RL algorithms. In addition, GILD introduces no domain-specific hyperparameter and minimal increase in computational cost. In four challenging MuJoCo tasks with sparse rewards, we show that three RL algorithms enhanced with GILD significantly outperform state-of-the-art methods.

arxiv情報

著者 Shilong Deng,Zetao Zheng,Hongcai He,Paul Weng,Jie Shao
発行日 2025-01-13 14:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク