Dexterous Legged Locomotion in Confined 3D Spaces with Reinforcement Learning

要約

深層強化学習 (RL) を利用した移動コントローラーの最近の進歩は、ごつごつした岩、硬くない地面、滑りやすい表面などの困難な地形での迅速かつ堅牢な移動を実現するという点で、目覚ましい成果をもたらしました。
ただし、これらのコントローラーは主にロボットの下の課題に対処していますが、狭いトンネルや不規則な空洞など、全方位の制約が課せられる限られた 3D 空間での脚の移動性を調査した研究は比較的少ないです。
速度や身長などの動作パラメータによって特徴付けられるパラメータ化された移動スキルを学習するための既存の RL ベースの方法から得られた周期的な歩行パターンは、機敏な 3D 障害物回避と堅牢な脚の両方が必要な、困難な制限された 3D 空間をロボットが移動するのに適切ではない可能性があります。
移動。
代わりに、限られた 3D 空間での目標指向のナビゲーションから移動スキルをエンドツーエンドで学習することを提案します。
遠く離れたナビゲーション目標を追跡する非効率性に対処するために、遠く離れた地球上の目標位置に到達するためのウェイポイントを計画する任務を負った古典的なプランナーと、低レベルのモーションを生成することでこれらのウェイポイントを追跡するように訓練された RL ベースのポリシーを組み合わせた階層型移動コントローラーを導入します。
コマンド。
このアプローチにより、ポリシーはソリューション空間全体内で独自の移動スキルを探索できるようになり、ローカル目標間のスムーズな移行が促進され、遠くの目標に向けた長期的なナビゲーションが可能になります。
シミュレーションでは、私たちの階層的アプローチは、要求の厳しい限定された 3D 環境をナビゲートすることに成功し、純粋なエンドツーエンドの学習アプローチとパラメーター化された移動スキルの両方を上回ります。
さらに、シミュレーションでトレーニングされたコントローラーを実際のロボットに実際に展開して成功することを実証します。

要約(オリジナル)

Recent advances of locomotion controllers utilizing deep reinforcement learning (RL) have yielded impressive results in terms of achieving rapid and robust locomotion across challenging terrain, such as rugged rocks, non-rigid ground, and slippery surfaces. However, while these controllers primarily address challenges underneath the robot, relatively little research has investigated legged mobility through confined 3D spaces, such as narrow tunnels or irregular voids, which impose all-around constraints. The cyclic gait patterns resulted from existing RL-based methods to learn parameterized locomotion skills characterized by motion parameters, such as velocity and body height, may not be adequate to navigate robots through challenging confined 3D spaces, requiring both agile 3D obstacle avoidance and robust legged locomotion. Instead, we propose to learn locomotion skills end-to-end from goal-oriented navigation in confined 3D spaces. To address the inefficiency of tracking distant navigation goals, we introduce a hierarchical locomotion controller that combines a classical planner tasked with planning waypoints to reach a faraway global goal location, and an RL-based policy trained to follow these waypoints by generating low-level motion commands. This approach allows the policy to explore its own locomotion skills within the entire solution space and facilitates smooth transitions between local goals, enabling long-term navigation towards distant goals. In simulation, our hierarchical approach succeeds at navigating through demanding confined 3D environments, outperforming both pure end-to-end learning approaches and parameterized locomotion skills. We further demonstrate the successful real-world deployment of our simulation-trained controller on a real robot.

arxiv情報

著者 Zifan Xu,Amir Hossain Raj,Xuesu Xiao,Peter Stone
発行日 2024-03-06 16:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク