Discovering Temporally-Aware Reinforcement Learning Algorithms

要約

メタ学習の最近の進歩により、代理目的関数によってパラメータ化された新しい強化学習アルゴリズムの自動発見が可能になりました。
手動で設計されたアルゴリズムを改善するには、この学習された目的関数のパラメータ化は、(すでに確立されたものを単に復元するのではなく) 新しい学習原理を表すのに十分な表現力を持ちながら、メタトレーニング分布の外側の幅広い設定に一般化する必要があります。
ただし、既存の方法は、強化学習で広く使用されている多くの目的関数と同様に、トレーニングに許可される総ステップ数、つまり「トレーニング期間」を考慮していない目的関数を発見することに重点を置いています。
対照的に、人間は新しい能力を獲得する過程でさまざまな学習目標を使用します。
たとえば、学生は試験の締め切りが近いことや自己評価した能力に基づいて勉強方法を変更する場合があります。
この論文は、最適化の期間を無視すると、発見された学習アルゴリズムの表現力が大幅に制限されると主張しています。
我々は、発見されたアルゴリズムがエージェントのトレーニング手順全体を通じてその目的関数を動的に更新できるようにする 2 つの既存の目的発見アプローチに対する簡単な拡張を提案します。その結果、表現力豊かなスケジュールが実現され、さまざまなトレーニング範囲にわたって一般化が強化されます。
その過程で、一般的に使用されるメタ勾配アプローチではそのような適応目的関数を発見できないことがわかりましたが、進化戦略は非常に動的な学習規則を発見しました。
私たちは、幅広いタスクに対するアプローチの有効性を実証し、その結果得られる学習アルゴリズムを分析します。このアルゴリズムは、エージェントの存続期間全体を通じて学習ルールの構造を変更することで、探索と活用のバランスを効果的にとっていることがわかりました。

要約(オリジナル)

Recent advancements in meta-learning have enabled the automatic discovery of novel reinforcement learning algorithms parameterized by surrogate objective functions. To improve upon manually designed algorithms, the parameterization of this learned objective function must be expressive enough to represent novel principles of learning (instead of merely recovering already established ones) while still generalizing to a wide range of settings outside of its meta-training distribution. However, existing methods focus on discovering objective functions that, like many widely used objective functions in reinforcement learning, do not take into account the total number of steps allowed for training, or ‘training horizon’. In contrast, humans use a plethora of different learning objectives across the course of acquiring a new ability. For instance, students may alter their studying techniques based on the proximity to exam deadlines and their self-assessed capabilities. This paper contends that ignoring the optimization time horizon significantly restricts the expressive potential of discovered learning algorithms. We propose a simple augmentation to two existing objective discovery approaches that allows the discovered algorithm to dynamically update its objective function throughout the agent’s training procedure, resulting in expressive schedules and increased generalization across different training horizons. In the process, we find that commonly used meta-gradient approaches fail to discover such adaptive objective functions while evolution strategies discover highly dynamic learning rules. We demonstrate the effectiveness of our approach on a wide range of tasks and analyze the resulting learned algorithms, which we find effectively balance exploration and exploitation by modifying the structure of their learning rules throughout the agent’s lifetime.

arxiv情報

著者 Matthew Thomas Jackson,Chris Lu,Louis Kirsch,Robert Tjarko Lange,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2024-02-08 17:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク