Kernel-based diffusion approximated Markov decision processes for autonomous navigation and control on unstructured terrains

要約

我々は、非構造化オフロード環境における自律ナビゲーションと制御に対処するために利用できる、連続状態マルコフ決定プロセス (MDP) への拡散近似法を提案します。
完全に既知の状態遷移モデルを前提とするほとんどの意思決定理論による計画フレームワークとは対照的に、私たちは、現実に設計するのが非常に困難なことが多いこのような強力な前提を排除する方法を設計します。
まず、値関数の 2 次テイラー展開を行います。
次に、ベルマン最適性方程式は、遷移モデルの 1 次モーメントと 2 次モーメントのみに依存する偏微分方程式によって近似されます。
価値関数のカーネル表現を組み合わせることで、効率的なポリシー反復アルゴリズムを設計します。そのポリシー評価ステップは、サポート状態の有限セットによって特徴付けられる線形方程式系として表すことができます。
まず、2D 障害物回避問題と 2.5D 地形ナビゲーション問題における広範なシミュレーションを通じて、提案された方法を検証します。
結果は、提案されたアプローチがいくつかのベースラインよりもはるかに優れたパフォーマンスをもたらすことを示しています。
次に、意思決定のフレームワークと車上の認識を統合するシステムを開発し、雑然とした屋内環境と構造化されていない屋外環境の両方で実世界の実験を実施します。
物理システムから得られた結果は、困難な現実世界の環境における私たちの手法の適用可能性をさらに実証しています。

要約(オリジナル)

We propose a diffusion approximation method to the continuous-state Markov Decision Processes (MDPs) that can be utilized to address autonomous navigation and control in unstructured off-road environments. In contrast to most decision-theoretic planning frameworks that assume fully known state transition models, we design a method that eliminates such a strong assumption that is often extremely difficult to engineer in reality. We first take the second-order Taylor expansion of the value function. The Bellman optimality equation is then approximated by a partial differential equation, which only relies on the first and second moments of the transition model. By combining the kernel representation of the value function, we design an efficient policy iteration algorithm whose policy evaluation step can be represented as a linear system of equations characterized by a finite set of supporting states. We first validate the proposed method through extensive simulations in 2D obstacle avoidance and 2.5D terrain navigation problems. The results show that the proposed approach leads to a much superior performance over several baselines. We then develop a system that integrates our decision-making framework with onboard perception and conduct real-world experiments in both cluttered indoor and unstructured outdoor environments. The results from the physical systems further demonstrate the applicability of our method in challenging real-world environments.

arxiv情報

著者 Junhong Xu,Kai Yin,Zheng Chen,Jason M. Gregory,Ethan A. Stump,Lantao Liu
発行日 2024-02-07 05:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク