要約
強化学習 (RL) の中心的な目標は、新しいタスクで迅速に学習できるエージェントを作成することです。
Meta-RL は、そのようなエージェントを直接学習することでこれを達成することを目指しています。
ブラック ボックス法と呼ばれるメタ RL 法の 1 つのカテゴリは、既製のシーケンス モデルをエンドツーエンドでトレーニングすることによってこれを実現します。
対照的に、未知のタスクの事後分布を明示的に推論する別のカテゴリの方法が開発されています。
これらの方法は一般に、タスク推論を可能にするように設計された明確な目的とシーケンス モデルを備えているため、タスク推論方法として知られています。
ただし、最近の証拠は、タスク推論の目的が実際には不要であることを示唆しています。
それにもかかわらず、タスク推論の目的が有益でない場合でも、タスク推論シーケンス モデルが有益であるかどうかは不明のままです。
この論文では、タスク推論シーケンス モデルが依然として有益であるという強力な証拠を示します。
特に、マルコフ特性によりタスク事後がデータの順序に依存しないという事実を利用する、順列不変集計を使用したシーケンス モデルを調査します。
タスク推論目的を使用せずに、順列不変シーケンス モデルの利点を経験的に確認します。
しかし、驚くべきことに、順列分散が依然として有用である条件が複数存在することもわかりました。
したがって、順列バリアントコンポーネントとインバリアントコンポーネントの両方を使用して両方の長所を実現し、連続制御およびメモリ環境ですべてのベースラインを上回るパフォーマンスを実現する SplAgger を提案します。
要約(オリジナル)
A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. One category of meta-RL methods, called black box methods, does so by training off-the-shelf sequence models end-to-end. In contrast, another category of methods have been developed that explicitly infer a posterior distribution over the unknown task. These methods generally have distinct objectives and sequence models designed to enable task inference, and so are known as task inference methods. However, recent evidence suggests that task inference objectives are unnecessary in practice. Nonetheless, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.
arxiv情報
著者 | Jacob Beck,Matthew Jackson,Risto Vuorio,Zheng Xiong,Shimon Whiteson |
発行日 | 2024-03-05 14:57:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google