Monte Carlo Tree Search with Spectral Expansion for Planning with Dynamical Systems


モンテカルロ ツリー検索は、シミュレートされた将来の可能性を戦略的に探索する強力な計画アルゴリズムですが、物理世界の連続的な力学と矛盾する離散的な問題の表現を必要とします。
我々は、局所的に線形化されたシステムのスペクトルを使用して、連続世界の低複雑かつほぼ同等の離散表現を構築する、リアルタイムのツリーベースのプランナーであるスペクトル拡張ツリー検索 (SETS) を紹介します。
我々は、SETS が連続的で決定論的かつ微分可能なマルコフ決定プロセス、つまり作動不足の非線形ダイナミクス、非凸報酬関数、非構造化環境を含む広範なクラスの問題に対するグローバル最適解の限界に収束することを証明します。
ドローン、宇宙船、地上車両ロボットの SETS と 1 つの数値実験を実験的に検証しますが、それぞれ既存の手法では直接解決できません。
私たちは、SETS が最適な動作と運動軌跡の多様なセットをリアルタイムで自動的に発見することを示すことに成功しました。


The ability of a robot to plan complex behaviors with real-time computation, rather than adhering to predesigned or offline-learned routines, alleviates the need for specialized algorithms or training for each problem instance. Monte Carlo Tree Search is a powerful planning algorithm that strategically explores simulated future possibilities, but it requires a discrete problem representation that is irreconcilable with the continuous dynamics of the physical world. We present Spectral Expansion Tree Search (SETS), a real-time, tree-based planner that uses the spectrum of the locally linearized system to construct a low-complexity and approximately equivalent discrete representation of the continuous world. We prove SETS converges to a bound of the globally optimal solution for continuous, deterministic and differentiable Markov Decision Processes, a broad class of problems that includes underactuated nonlinear dynamics, non-convex reward functions, and unstructured environments. We experimentally validate SETS on drone, spacecraft, and ground vehicle robots and one numerical experiment, each of which is not directly solvable with existing methods. We successfully show SETS automatically discovers a diverse set of optimal behaviors and motion trajectories in real time.


著者 Benjamin Riviere,John Lathrop,Soon-Jo Chung
発行日 2024-12-15 18:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク