Tree Search-Based Policy Optimization under Stochastic Execution Delay

要約

マルコフ決定プロセス (MDP) の標準的な定式化では、エージェントの決定が即時に実行されることを前提としています。
ただし、ロボット工学やヘルスケアなどの多くの現実的なアプリケーションでは、アクションは遅延を伴って実行され、その値は確率的なものになる場合もあります。
この研究では、状態の拡張に頼らずにランダムな遅延に対処する新しい形式である、確率的遅延実行 MDP を導入します。
観測された遅延値が与えられた場合、最適なパフォーマンスに到達するにはマルコフ ポリシーのクラスでポリシー検索を実行するだけで十分であることを示し、したがって決定論的な固定遅延のケースを拡張します。
この洞察をもとに、私たちはマルコフ ポリシーのクラス全体にわたって最適化するモデルベースのアルゴリズムである DEZ を考案しました。
DEZ は、遅延のないバリアント EfficientZero と同様のモンテカルロ ツリー検索を利用して、アクション キューから将来の状態を正確に推測します。
したがって、EfficientZero のサンプル効率を維持しながら、遅延実行を処理します。
Atari スイートでの一連の実験を通じて、一定の遅延があるシナリオでは以前のベースラインが単純な方法よりも優れたパフォーマンスを発揮しますが、確率的遅延に直面するとパフォーマンスが劣ることを実証しました。
対照的に、私たちのアプローチは、一定の遅延と確率的な遅延の両方について、ベースラインを大幅に上回っています。
コードは http://github.com/davidva1/Delayed-EZ で入手できます。

要約(オリジナル)

The standard formulation of Markov decision processes (MDPs) assumes that the agent’s decisions are executed immediately. However, in numerous realistic applications such as robotics or healthcare, actions are performed with a delay whose value can even be stochastic. In this work, we introduce stochastic delayed execution MDPs, a new formalism addressing random delays without resorting to state augmentation. We show that given observed delay values, it is sufficient to perform a policy search in the class of Markov policies in order to reach optimal performance, thus extending the deterministic fixed delay case. Armed with this insight, we devise DEZ, a model-based algorithm that optimizes over the class of Markov policies. DEZ leverages Monte-Carlo tree search similar to its non-delayed variant EfficientZero to accurately infer future states from the action queue. Thus, it handles delayed execution while preserving the sample efficiency of EfficientZero. Through a series of experiments on the Atari suite, we demonstrate that although the previous baseline outperforms the naive method in scenarios with constant delay, it underperforms in the face of stochastic delays. In contrast, our approach significantly outperforms the baselines, for both constant and stochastic delays. The code is available at http://github.com/davidva1/Delayed-EZ .

arxiv情報

著者 David Valensi,Esther Derman,Shie Mannor,Gal Dalal
発行日 2024-04-08 12:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク