Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations

要約

一般的なインテリジェンスには、タスク間での迅速な適応が必要です。
既存の強化学習 (RL) 手法は一般化が進んでいますが、通常はソース ドメインとターゲット ドメイン間の分布の変化のみを想定しています。
このペーパーでは、分布空間と環境空間の両方が変化する可能性がある、より広範囲のシナリオを検討します。
たとえば、Atari ゲームでは、以前の環境では発生しなかった新しい状態変数やアクション変数が存在する可能性がある、さまざまなレベルのモードと難易度のタスクに一般化するようにエージェントをトレーニングします。
この困難な状況に対処するために、CSR と呼ばれる因果関係に基づく自己適応表現ベースのアプローチを導入します。これにより、エージェントは、ダイナミクスが進化する一連のタスク全体にわたって効果的かつ効率的に一般化できるようになります。
具体的には、因果表現学習を利用して、RL システム内の潜在的な因果変数と世界モデルを特徴付けます。
このようなコンパクトな因果表現により、変数間の構造的関係が明らかになり、エージェントは環境の変化が分布の変化に起因するのか空間の変化に起因するのかを自律的に判断し、これらの変化を正確に特定できるようになります。
次に、さまざまなシナリオに応じてモデルを微調整するための 3 段階の戦略を考案します。
実証実験によると、CSR はわずか数サンプルでターゲット ドメインに効率的に適応し、シミュレート環境、Cartpole、Atari ゲームなどの幅広いシナリオで最先端のベースラインを上回るパフォーマンスを示します。

要約(オリジナル)

General intelligence requires quick adaption across tasks. While existing reinforcement learning (RL) methods have made progress in generalization, they typically assume only distribution changes between source and target domains. In this paper, we explore a wider range of scenarios where both the distribution and environment spaces may change. For example, in Atari games, we train agents to generalize to tasks with different levels of mode and difficulty, where there could be new state or action variables that never occurred in previous environments. To address this challenging setting, we introduce a causality-guided self-adaptive representation-based approach, called CSR, that equips the agent to generalize effectively and efficiently across a sequence of tasks with evolving dynamics. Specifically, we employ causal representation learning to characterize the latent causal variables and world models within the RL system. Such compact causal representations uncover the structural relationships among variables, enabling the agent to autonomously determine whether changes in the environment stem from distribution shifts or variations in space, and to precisely locate these changes. We then devise a three-step strategy to fine-tune the model under different scenarios accordingly. Empirical experiments show that CSR efficiently adapts to the target domains with only a few samples and outperforms state-of-the-art baselines on a wide range of scenarios, including our simulated environments, Cartpole, and Atari games.

arxiv情報

著者 Yupei Yang,Biwei Huang,Fan Feng,Xinyue Wang,Shikui Tu,Lei Xu
発行日 2024-07-31 14:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク