要約
Meta-World Conditional Neural Processes (MW-CNP) を提案します。これは、Conditional Neural Processes のサンプル効率とスケーラビリティを活用して、エージェントが自身の「幻覚」からサンプリングできるようにする条件付きワールド モデル ジェネレーターです。
テスト時のターゲット環境とのエージェントの相互作用を可能な限り減らす予定です。
テスト時に必要なサンプルの数を減らすために、最初に隠しパラメーターを使用して、テスト環境からの単一のロールアウトから遷移ダイナミクスの潜在的な表現を取得します。
次に、メタ世界モデルによって生成された「幻覚」と相互作用することにより、少数ショット学習のロールアウトを取得します。
メタ RL エージェントは、MW-CNP からのワールド モデル表現を使用して、ベースラインと比較してターゲット環境から収集されるサンプルが大幅に少なく、目に見えないターゲット環境に適応できます。
トレーニングとテストの間、エージェントはタスク パラメーターにアクセスできないこと、および MW-CNP はメタトレーニング中に記録されたオフライン インタラクション データでトレーニングされることを強調します。
要約(オリジナル)
We propose Meta-World Conditional Neural Processes (MW-CNP), a conditional world model generator that leverages sample efficiency and scalability of Conditional Neural Processes to enable an agent to sample from its own ‘hallucination’. We intend to reduce the agent’s interaction with the target environment at test time as much as possible. To reduce the number of samples required at test time, we first obtain a latent representation of the transition dynamics from a single rollout from the test environment with hidden parameters. Then, we obtain rollouts for few-shot learning by interacting with the ‘hallucination’ generated by the meta-world model. Using the world model representation from MW-CNP, the meta-RL agent can adapt to an unseen target environment with significantly fewer samples collected from the target environment compared to the baselines. We emphasize that the agent does not have access to the task parameters throughout training and testing, and MW-CNP is trained on offline interaction data logged during meta-training.
arxiv情報
著者 | Suzan Ece Ada,Emre Ugur |
発行日 | 2023-02-20 21:18:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google