要約
高次元連続行動空間における逐次的な意思決定、特に確率的環境における意思決定は、計算上大きな課題に直面している。我々は、エージェントが確率的な行動方針を通じて収集されたデータに基づいて意思決定を行う方法を学習しなければならない、伝統的なオフラインRL設定においてこの課題を探求する。L-MAPは、状態条件付きベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて、時間的に拡張されたマクロ行動のセットを学習することで、行動の次元を効果的に削減し、この課題に対処する。L-MAPは、潜在的な遷移モデルとして働き、もっともらしい行動の効率的なサンプリングを可能にする、(別個に)学習された事前モデルを採用する。計画時には、モンテカルロ木探索(MCTS)を用いることで、環境と行動方針の両方における確率性を考慮する。確率的な連続制御タスクを含むオフラインRL設定において、L-MAPは離散的な潜在行動を効率的に探索し、高い期待収益をもたらす。実証結果は、L-MAPがアクションの次元が大きくなっても低い決定待ち時間を維持することを示している。特に、本質的に確率的なダイナミクスを持つ連続制御から高次元ロボットハンド操作までのタスクにおいて、L-MAPは既存のモデルベース手法を大幅に上回り、モデルフリーのアクタークリティックベースラインと同程度の性能を発揮し、高次元アクション空間を持つ複雑で確率的な環境におけるプランニングにおける提案手法の有効性を強調した。
要約(オリジナル)
Sequential decision-making in high-dimensional continuous action spaces, particularly in stochastic environments, faces significant computational challenges. We explore this challenge in the traditional offline RL setting, where an agent must learn how to make decisions based on data collected through a stochastic behavior policy. We present Latent Macro Action Planner (L-MAP), which addresses this challenge by learning a set of temporally extended macro-actions through a state-conditional Vector Quantized Variational Autoencoder (VQ-VAE), effectively reducing action dimensionality. L-MAP employs a (separate) learned prior model that acts as a latent transition model and allows efficient sampling of plausible actions. During planning, our approach accounts for stochasticity in both the environment and the behavior policy by using Monte Carlo tree search (MCTS). In offline RL settings, including stochastic continuous control tasks, L-MAP efficiently searches over discrete latent actions to yield high expected returns. Empirical results demonstrate that L-MAP maintains low decision latency despite increased action dimensionality. Notably, across tasks ranging from continuous control with inherently stochastic dynamics to high-dimensional robotic hand manipulation, L-MAP significantly outperforms existing model-based methods and performs on-par with strong model-free actor-critic baselines, highlighting the effectiveness of the proposed approach in planning in complex and stochastic environments with high-dimensional action spaces.
arxiv情報
著者 | Baiting Luo,Ava Pettet,Aron Laszka,Abhishek Dubey,Ayan Mukhopadhyay |
発行日 | 2025-03-03 02:33:31+00:00 |
arxivサイト | arxiv_id(pdf) |