要約
この論文では、連続状態およびアクション空間での確率的遷移を伴う環境向けに開発されたオンライン プランナーである DiSProD を紹介します。
DiSProD は、独立性の仮定と分布のおおよその伝播を使用して、特定のポリシーを条件として、将来の軌道の分布をキャプチャするシンボリック グラフを作成します。
シンボリック グラフはポリシーの値の微分可能な表現を提供し、長い期間の検索に対して効率的な勾配ベースの最適化を可能にします。
おおよその分布の伝播は、多くの軌跡の集合として見ることができるため、まばらな報酬や確率的環境を扱うのに適しています。
広範な実験的評価により、ロボット システムの離散時間計画およびリアルタイム制御において、DiSProD が最先端のプランナーと比較されます。
提案された方法は、確率的環境、検索の深さに対する感度、報酬のまばらさ、および大きなアクションスペースの処理において、既存のプランナーを改善します。
追加の実世界実験では、DiSProD が地上車両と水上艦艇を制御して、障害物をうまく回避できることが実証されています。
要約(オリジナル)
The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy’s value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.
arxiv情報
著者 | Palash Chatterjee,Ashutosh Chapagain,Weizhe Chen,Roni Khardon |
発行日 | 2023-02-23 23:45:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google