SplAgger: Split Aggregation for Meta-Reinforcement Learning

要約

強化学習 (RL) の中心的な目標は、新しいタスクで迅速に学習できるエージェントを作成することです。
Meta-RL は、そのようなエージェントを直接学習することでこれを達成することを目指しています。
ブラック ボックス手法では、既製のシーケンス モデルをエンドツーエンドでトレーニングすることでこれを実現します。
対照的に、タスク推論方法は、通常、タスク推論を可能にするように設計された個別の目的とシーケンス モデルを使用して、未知のタスクの事後分布を明示的に推論します。
最近の研究では、タスク推論手法は優れたパフォーマンスには必要ないことがわかっています。
ただし、タスク推論の目的が有益でない場合でも、タスク推論シーケンス モデルが有益であるかどうかは依然として不明です。
この論文では、タスク推論シーケンス モデルが依然として有益であるという強力な証拠を示します。
特に、マルコフ特性によりタスク事後がデータの順序に依存しないという事実を利用する、順列不変集計を使用したシーケンス モデルを調査します。
タスク推論目的を使用せずに、順列不変シーケンス モデルの利点を経験的に確認します。
しかし、驚くべきことに、順列分散が依然として有用である条件が複数存在することもわかりました。
したがって、順列バリアントコンポーネントとインバリアントコンポーネントの両方を使用して両方の長所を実現し、連続制御およびメモリ環境ですべてのベースラインを上回るパフォーマンスを実現する SplAgger を提案します。

要約(オリジナル)

A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. Black box methods do so by training off-the-shelf sequence models end-to-end. By contrast, task inference methods explicitly infer a posterior distribution over the unknown task, typically using distinct objectives and sequence models designed to enable task inference. Recent work has shown that task inference methods are not necessary for strong performance. However, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.

arxiv情報

著者 Jacob Beck,Matthew Jackson,Risto Vuorio,Zheng Xiong,Shimon Whiteson
発行日 2024-03-08 14:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク