Online Multi-Contact Receding Horizon Planning via Value Function Approximation

要約

後退地平線方式で複数接触の動作を計画するには、将来を考慮した計画の指針となる価値関数が必要です (たとえば、大きな障害物を通過するための勢いを高めるなど)。
従来、価値関数は、実行期間を超えた将来を予測する予測期間 (決して実行されない) 内の軌跡を計算することによって近似されます。
ただし、複数接触運動の非凸ダイナミクスを考慮すると、このアプローチは計算コストが高くなります。
複数接触運動のオンライン後退地平線計画 (RHP) を可能にするために、価値関数の効率的な近似を見つけます。
具体的には、軌跡ベースと学習ベースのアプローチを提案します。
前者、つまり複数レベルのモデル忠実度を備えた RHP では、凸緩和モデルを使用して予測範囲を計算することで値関数を近似します。
後者、つまりローカルガイド RHP では、移動タスクのローカル目標を予測するオラクルを学習し、これらのローカル目標を使用して、短地平 RHP をガイドするためのローカル値関数を構築します。
私たちは、緩やかな坂道と、ロボットが静的バランスを維持できない大きな坂道を歩くヒューマノイド ロボットの重心軌道を計画することにより、シミュレーションで両方のアプローチを評価します。
私たちの結果は、ローカル ガイド型 RHP が最高の計算効率を達成することを示しています (95\% ~ 98.6\% サイクルがオンラインで収束)。
この計算上の利点により、オンザフライで変化する動的環境内を歩く現実世界の人型ロボット Talos の後退地平線計画をオンラインでデモンストレーションすることができます。

要約(オリジナル)

Planning multi-contact motions in a receding horizon fashion requires a value function to guide the planning with respect to the future, e.g., building momentum to traverse large obstacles. Traditionally, the value function is approximated by computing trajectories in a prediction horizon (never executed) that foresees the future beyond the execution horizon. However, given the non-convex dynamics of multi-contact motions, this approach is computationally expensive. To enable online Receding Horizon Planning (RHP) of multi-contact motions, we find efficient approximations of the value function. Specifically, we propose a trajectory-based and a learning-based approach. In the former, namely RHP with Multiple Levels of Model Fidelity, we approximate the value function by computing the prediction horizon with a convex relaxed model. In the latter, namely Locally-Guided RHP, we learn an oracle to predict local objectives for locomotion tasks, and we use these local objectives to construct local value functions for guiding a short-horizon RHP. We evaluate both approaches in simulation by planning centroidal trajectories of a humanoid robot walking on moderate slopes, and on large slopes where the robot cannot maintain static balance. Our results show that locally-guided RHP achieves the best computation efficiency (95\%-98.6\% cycles converge online). This computation advantage enables us to demonstrate online receding horizon planning of our real-world humanoid robot Talos walking in dynamic environments that change on-the-fly.

arxiv情報

著者 Jiayi Wang,Sanghyun Kim,Teguh Santoso Lembono,Wenqian Du,Jaehyun Shim,Saeid Samadi,Ke Wang,Vladimir Ivan,Sylvain Calinon,Sethu Vijayakumar,Steve Tonneau
発行日 2023-06-12 09:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク