Augmenting Unsupervised Reinforcement Learning with Self-Reference

要約

人間には、新しいタスクを学習し、それに応じて適用するときに、過去の経験を明確に活用する能力があります。
私たちは、この自己参照の能力は、教師なしの事前学習後微調整設定における強化学習エージェントにとって特に有利であると考えています。
事前トレーニング中に、エージェントの過去の経験を明示的に利用して、固有の報酬の非定常性を軽減できます。
微調整段階では、過去の軌跡を参照することで、貴重な探索行動が忘れ去られるのを防ぎます。
これらの利点を動機として、私たちは、履歴情報を活用し、事前トレーニングと微調整のパラダイム内でエージェントのパフォーマンスを向上させるために明示的に設計されたアドオン モジュールである自己参照 (SR) アプローチを提案します。
私たちのアプローチは、モデルフリー手法の教師なし強化学習ベンチマークで四分位間平均 (IQM) パフォーマンスと最適性ギャップの削減という点で最先端の結果を達成し、86% の IQM と 16% の最適性ギャップを記録しました。
さらに、現在のアルゴリズムを最大 17% IQM 改善し、最適性ギャップを 31% 削減します。
Self-Reference アドオンは、パフォーマンスの向上だけでなく、実際のアプリケーションにとって重要な特性であるサンプル効率も向上します。

要約(オリジナル)

Humans possess the ability to draw on past experiences explicitly when learning new tasks and applying them accordingly. We believe this capacity for self-referencing is especially advantageous for reinforcement learning agents in the unsupervised pretrain-then-finetune setting. During pretraining, an agent’s past experiences can be explicitly utilized to mitigate the nonstationarity of intrinsic rewards. In the finetuning phase, referencing historical trajectories prevents the unlearning of valuable exploratory behaviors. Motivated by these benefits, we propose the Self-Reference (SR) approach, an add-on module explicitly designed to leverage historical information and enhance agent performance within the pretrain-finetune paradigm. Our approach achieves state-of-the-art results in terms of Interquartile Mean (IQM) performance and Optimality Gap reduction on the Unsupervised Reinforcement Learning Benchmark for model-free methods, recording an 86% IQM and a 16% Optimality Gap. Additionally, it improves current algorithms by up to 17% IQM and reduces the Optimality Gap by 31%. Beyond performance enhancement, the Self-Reference add-on also increases sample efficiency, a crucial attribute for real-world applications.

arxiv情報

著者 Andrew Zhao,Erle Zhu,Rui Lu,Matthieu Lin,Yong-Jin Liu,Gao Huang
発行日 2023-11-16 09:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク