Dream to Adapt: Meta Reinforcement Learning by Latent Context Imagination and MDP Imagination

要約

メタ強化学習 (Meta RL) は、以前に学習した知識を同様のタスクから転送することで、目に見えないタスクを迅速に学習するために十分に研究されてきました。
ただし、ほとんどの最先端のアルゴリズムでは、メタトレーニング タスクがタスク分布を高密度にカバーし、それぞれのタスクに大量のデータが必要です。
この論文では、メタイマジネーションと MDP イマジネーションを行うことで実際のトレーニング タスクとデータをあまり必要としない、コンテキストベースのメタ RL アルゴリズムである MetaDreamer を提案します。
私たちは、もつれの解けた特性を持つ学習された潜在コンテキスト空間を補間することによってメタ想像力を実行します。また、単純な VAE ネットワークに物理的知識が追加される生成世界モデルを通じて MDP 想像力も実行します。
さまざまなベンチマークを使用した実験では、MetaDreamer がデータ効率と補間一般化において既存のアプローチよりも優れていることがわかりました。

要約(オリジナル)

Meta reinforcement learning (Meta RL) has been amply explored to quickly learn an unseen task by transferring previously learned knowledge from similar tasks. However, most state-of-the-art algorithms require the meta-training tasks to have a dense coverage on the task distribution and a great amount of data for each of them. In this paper, we propose MetaDreamer, a context-based Meta RL algorithm that requires less real training tasks and data by doing meta-imagination and MDP-imagination. We perform meta-imagination by interpolating on the learned latent context space with disentangled properties, as well as MDP-imagination through the generative world model where physical knowledge is added to plain VAE networks. Our experiments with various benchmarks show that MetaDreamer outperforms existing approaches in data efficiency and interpolated generalization.

arxiv情報

著者 Lu Wen,Songan Zhang,H. Eric Tseng,Huei Peng
発行日 2023-11-11 22:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク