DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning

要約

潜在状態がさまざまな速度で進化する環境で近似推論を行うためのメタ強化学習 (メタ RL) アプローチである DynaMITE-RL を紹介します。
我々は、エピソードセッション(潜在状態が固定されているエピソードの部分)をモデル化し、既存のメタRL手法に対する3つの重要な修正、セッション内の潜在情報の一貫性、セッションマスキング、および事前の潜在条件付けを提案します。
私たちは、離散的な Gridworld 環境から連続制御およびシミュレートされたロボット支援タスクに至るまで、さまざまなドメインにおけるこれらの変更の重要性を実証し、DynaMITE-RL がサンプル効率と推論リターンにおいて最先端のベースラインを大幅に上回ることを実証しました。

要約(オリジナル)

We introduce DynaMITE-RL, a meta-reinforcement learning (meta-RL) approach to approximate inference in environments where the latent state evolves at varying rates. We model episode sessions – parts of the episode where the latent state is fixed – and propose three key modifications to existing meta-RL methods: consistency of latent information within sessions, session masking, and prior latent conditioning. We demonstrate the importance of these modifications in various domains, ranging from discrete Gridworld environments to continuous-control and simulated robot assistive tasks, demonstrating that DynaMITE-RL significantly outperforms state-of-the-art baselines in sample efficiency and inference returns.

arxiv情報

著者 Anthony Liang,Guy Tennenholtz,Chih-wei Hsu,Yinlam Chow,Erdem Bıyık,Craig Boutilier
発行日 2024-12-04 18:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク