Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction

要約

特に確率的環境での高次元連続アクション空間での順次意思決定は、重要な計算上の課題に直面しています。
この課題は、従来のオフラインRL設定で検討します。エージェントは、確率的行動ポリシーを通じて収集されたデータに基づいて意思決定を行う方法を学ぶ必要があります。
\ textIT {latentマクロアクションプランナー}(l-map)を提示します。これは、状態条件付きベクトル量子化変分自動エンコーダー(VQ-vae)を介して一時的に拡張されたマクロアクションのセットを学習し、作用の次元を効果的に削減することにより、この課題に対処します。
L-Mapは、潜在的な遷移モデルとして機能し、もっともらしいアクションの効率的なサンプリングを可能にする(個別の)学習された以前のモデルを採用しています。
計画中、私たちのアプローチは、モンテカルロツリー検索(MCTS)を使用して、環境と行動ポリシーの両方における確率性を説明しています。
確率的連続制御タスクを含むオフラインRL設定では、L-Mapは離散潜入アクションを効率的に検索して、高い期待リターンを生成します。
経験的結果は、L-Mapがアクションの次元の増加にもかかわらず、意思決定の遅延が低いことを示しています。
特に、本質的に確率的なダイナミクスを備えた連続制御から高次元ロボットハンドマニピュレーションに至るまでのタスク全体で、L-MAPは既存のモデルベースの方法を大幅に上回り、強力なモデルの批判的なベースラインでPARを実行し、高次元のアクションスペースを備えた複雑および確率的環境での計画における提案されたアプローチの有効性を強調します。

要約(オリジナル)

Sequential decision-making in high-dimensional continuous action spaces, particularly in stochastic environments, faces significant computational challenges. We explore this challenge in the traditional offline RL setting, where an agent must learn how to make decisions based on data collected through a stochastic behavior policy. We present \textit{Latent Macro Action Planner} (L-MAP), which addresses this challenge by learning a set of temporally extended macro-actions through a state-conditional Vector Quantized Variational Autoencoder (VQ-VAE), effectively reducing action dimensionality. L-MAP employs a (separate) learned prior model that acts as a latent transition model and allows efficient sampling of plausible actions. During planning, our approach accounts for stochasticity in both the environment and the behavior policy by using Monte Carlo tree search (MCTS). In offline RL settings, including stochastic continuous control tasks, L-MAP efficiently searches over discrete latent actions to yield high expected returns. Empirical results demonstrate that L-MAP maintains low decision latency despite increased action dimensionality. Notably, across tasks ranging from continuous control with inherently stochastic dynamics to high-dimensional robotic hand manipulation, L-MAP significantly outperforms existing model-based methods and performs on-par with strong model-free actor-critic baselines, highlighting the effectiveness of the proposed approach in planning in complex and stochastic environments with high-dimensional action spaces.

arxiv情報

著者 Baiting Luo,Ava Pettet,Aron Laszka,Abhishek Dubey,Ayan Mukhopadhyay
発行日 2025-02-28 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク