DiSProD: Differentiable Symbolic Propagation of Distributions for Planning

要約

本論文では、連続的な状態空間と行動空間における確率的な遷移を持つ環境のために開発されたオンラインプランナーであるDiSProDを紹介する。DiSProDは、独立性の仮定と分布の近似伝搬を用いて、与えられたポリシーを条件とした将来の軌道の分布を捉えるシンボリックグラフを構築する。シンボリックグラフはポリシーの値を微分可能な表現で提供し、長ホライズン探索のための効率的な勾配ベースの最適化を可能にします。近似分布の伝播は多くの軌跡の集約とみなすことができ、疎な報酬や確率的な環境を扱うのに適している。広範な実験評価により、DiSProDは離散時間計画やロボットシステムのリアルタイム制御における最新のプランナーと比較される。提案手法は、確率的環境、探索深度に対する感度、報酬の疎さ、大きな行動空間の扱いにおいて、既存のプランナーよりも優れている。さらに、実世界での実験により、DiSProDが地上車両や水上船舶を制御し、障害物をうまく回避できることが実証された。

要約(オリジナル)

The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy’s value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.

arxiv情報

著者 Palash Chatterjee,Ashutosh Chapagain,Weizhe Chen,Roni Khardon
発行日 2023-08-04 16:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク