Motion Planning as Online Learning: A Multi-Armed Bandit Approach to Kinodynamic Sampling-Based Planning

要約

キノダイナミック モーション プランナーを使用すると、ロボットは力学制約の下で、またはブラック ボックス モデルを使用して複雑な操作タスクを実行できます。
しかし、特にステアリング機能が利用できない場合、高品質のソリューションを見つけるのに苦労しています。
この論文では、プランナーのパフォーマンスを向上させるためにサンプリング分布に適応的にバイアスをかける新しいアプローチを紹介します。
主な貢献は、サンプリング バイアス問題を非定常マルチアーム バンディット問題として定式化することであり、バンディットのアームは可能な遷移のセットに対応します。
報酬の高い領域は、運動力学的 RRT の連続実行からの遷移をクラスタリングすることによって特定され、バンディット アルゴリズムが各タイムステップでどの領域をサンプリングするかを決定します。
この論文では、いくつかのシミュレーション例と、力学的な不確実性を伴う 7 自由度の操作タスクでこのアプローチを実証しており、このアプローチがより良い解決策をより迅速に見つけ、実行の成功率の向上につながることを示唆しています。

要約(オリジナル)

Kinodynamic motion planners allow robots to perform complex manipulation tasks under dynamics constraints or with black-box models. However, they struggle to find high-quality solutions, especially when a steering function is unavailable. This paper presents a novel approach that adaptively biases the sampling distribution to improve the planner’s performance. The key contribution is to formulate the sampling bias problem as a non-stationary multi-armed bandit problem, where the arms of the bandit correspond to sets of possible transitions. High-reward regions are identified by clustering transitions from sequential runs of kinodynamic RRT and a bandit algorithm decides what region to sample at each timestep. The paper demonstrates the approach on several simulated examples as well as a 7-degree-of-freedom manipulation task with dynamics uncertainty, suggesting that the approach finds better solutions faster and leads to a higher success rate in execution.

arxiv情報

著者 Marco Faroni,Dmitry Berenson
発行日 2023-08-26 20:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク