要約
ゼロショット RL エージェントは、最初の無報酬の学習フェーズの後、追加の計画や学習なしで、特定の環境で任意の RL タスクを即座に解決できるエージェントです。
これは、報酬中心の RL パラダイムから、環境内で任意の指示に従うことができる「制御可能な」エージェントへの移行を示しています。
現在の RL エージェントは、せいぜい関連する一連のタスクを解決するか、タスクごとに新たに計画する必要があります。
後続機能 (SF) [BBQ+ 18] または前方後方 (FB) 表現 [TO21] を使用して、おおよそのゼロ ショット RL 平均の戦略が提案されていますが、テストは限られています。
これらのスキーム間の関係を明確にした後、改善された損失と新しい SF モデルを導入し、教師なし RL ベンチマーク [LYL+21] のタスクで体系的にゼロショット RL スキームの実行可能性をテストします。
普遍的な表現学習を探索から解きほぐすために、オフライン設定で作業し、いくつかの既存の再生バッファーでテストを繰り返します。
SF は、素状態の特徴の選択に悩まされているようです。
ラプラシアン固有関数を使用した SF はうまく機能しますが、自動エンコーダー、逆好奇心、遷移モデル、低ランク遷移行列、対照学習、または多様性 (APS) に基づく SF は一貫性のないパフォーマンスを発揮します。
対照的に、FB 表現は、単一の原則的な基準から基本機能と後続機能を共同で学習します。
それらは全面的に最高の一貫したパフォーマンスを発揮し、監視された RL パフォーマンスの 85% に達し、良好なリプレイ バッファーをゼロショットで達成します。
要約(オリジナル)
A zero-shot RL agent is an agent that can solve any RL task in a given environment, instantly with no additional planning or learning, after an initial reward-free learning phase. This marks a shift from the reward-centric RL paradigm towards ‘controllable’ agents that can follow arbitrary instructions in an environment. Current RL agents can solve families of related tasks at best, or require planning anew for each task. Strategies for approximate zero-shot RL ave been suggested using successor features (SFs) [BBQ+ 18] or forward-backward (FB) representations [TO21], but testing has been limited. After clarifying the relationships between these schemes, we introduce improved losses and new SF models, and test the viability of zero-shot RL schemes systematically on tasks from the Unsupervised RL benchmark [LYL+21]. To disentangle universal representation learning from exploration, we work in an offline setting and repeat the tests on several existing replay buffers. SFs appear to suffer from the choice of the elementary state features. SFs with Laplacian eigenfunctions do well, while SFs based on auto-encoders, inverse curiosity, transition models, low-rank transition matrix, contrastive learning, or diversity (APS), perform unconsistently. In contrast, FB representations jointly learn the elementary and successor features from a single, principled criterion. They perform best and consistently across the board, reaching 85% of supervised RL performance with a good replay buffer, in a zero-shot manner.
arxiv情報
著者 | Ahmed Touati,Jérémy Rapin,Yann Ollivier |
発行日 | 2023-03-01 18:01:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google