要約
継続的または生涯にわたる強化学習では、環境へのアクセスを制限する必要があります。
長期間にわたって実行でき、新たな予期せぬ状況に継続的に適応できるアルゴリズムを設計したい場合は、エージェントの存続期間全体にわたってハイパーパラメータを調整せずにエージェントをデプロイする必要があります。
ディープ RL (さらには継続的 RL) の標準的な実践方法は、エージェントの存続期間全体にわたって展開環境への自由なアクセスを想定することです。
この論文は、生涯にわたるRL研究の進歩が不適切な経験的方法論によって妨げられてきたという概念を検討します。
この論文では、実験データの 1% のみがハイパーパラメータ調整に使用できる、生涯 RL エージェントを調整および評価するための新しいアプローチを提案します。
次に、さまざまな継続的および非定常的な領域にわたって、DQN とソフト アクター批評家に関する実証研究を実施します。
どちらの方法も、1% の調整に制限すると一般にパフォーマンスが低下するのに対し、ネットワークの可塑性を維持するように設計されたいくつかのアルゴリズムによる緩和策は驚くほど優れたパフォーマンスを発揮することがわかりました。
さらに、ネットワークの継続的な学習能力を測定するように設計されたプロパティは、1 パーセントのチューニングの下で実際にパフォーマンスと相関していることがわかりました。
要約(オリジナル)
In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyperparameters over the agent’s entire lifetime. The standard practice in deep RL — and even continual RL — is to assume unfettered access to deployment environment for the full lifetime of the agent. This paper explores the notion that progress in lifelong RL research has been held back by inappropriate empirical methodologies. In this paper we propose a new approach for tuning and evaluating lifelong RL agents where only one percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and Soft Actor Critic across a variety of continuing and non-stationary domains. We find both methods generally perform poorly when restricted to one-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprising well. In addition, we find that properties designed to measure the network’s ability to learn continually indeed correlate with performance under one-percent tuning.
arxiv情報
著者 | Golnaz Mesbahi,Olya Mastikhina,Parham Mohammad Panahi,Martha White,Adam White |
発行日 | 2024-04-30 16:41:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google