DiSProD: Differentiable Symbolic Propagation of Distributions for Planning

要約

この論文では、連続状態およびアクション空間における確率的遷移を伴う環境向けに開発されたオンライン プランナーである DiSProD を紹介します。
DiSProD は、独立性の仮定と分布の近似伝播を使用して、特定のポリシーを条件とした将来の軌跡の分布を捉えるシンボリック グラフを構築します。
シンボリック グラフはポリシーの値の微分可能な表現を提供し、長期検索における効率的な勾配ベースの最適化を可能にします。
近似分布の伝播は多くの軌跡の集合体とみなすことができるため、報酬がまばらで確率的環境を扱うのに適しています。
広範な実験評価により、離散時間計画およびロボット システムのリアルタイム制御において DiSProD と最先端のプランナーが比較されます。
提案された方法は、確率的環境、検索の深さに対する感度、報酬の希薄さ、および大規模なアクション空間の処理において、既存のプランナーよりも改善されています。
追加の実世界での実験では、DiSProD が地上車両と水上艦艇を制御して障害物を回避してうまく航行できることが実証されました。

要約(オリジナル)

The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy’s value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.

arxiv情報

著者 Palash Chatterjee,Ashutosh Chapagain,Weizhe Chen,Roni Khardon
発行日 2023-05-18 21:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク