Geometric Fabrics: a Safe Guiding Medium for Policy Learning

要約

ロボット工学の方針は、常に複雑な2次のダイナミクスにさらされており、その行動と結果として生じる状態とが絡み合っている。強化学習(RL)の文脈では、ポリシーは、タスクを達成する方法を学習するために、膨大な量の経験と複雑な報酬関数にわたって、これらの複雑な相互作用を解読する負担を負う。さらに、ポリシーは通常、オペレーション空間制御(OSC)や関節PD制御のようなコントローラに直接アクションを発行し、タスク空間や関節空間においてこれらのアクション目標に向かう直線運動を誘導する。しかし、これらの空間における直線運動は、ほとんどの場合、私たちのロボットが示す必要のある豊かで非線形な挙動を捉えることができず、これらの挙動を発見する負担をより完全にエージェントに移します。このような単純なコントローラとは異なり、ジオメトリックファブリックは、非線形幾何学に基づいた人工的な2次ダイナミクスによって、より豊かで望ましい一連の挙動を捉えます。これらの人工的なダイナミクスは、適切な制御則を介してロボットの制御されていないダイナミクスをシフトさせ、行動ダイナミクスを形成します。行動ダイナミクスは、RLポリシーが学習される新たな行動空間と安全で指針となる行動を解き放ちます。行動ダイナミクスは、実際のロボットにとって安全なバンバンのようなRLポリシーの動作を可能にし、報酬工学を単純化し、実世界の高性能ポリシーの配列に役立つ。我々は、このフレームワークについてより一般的に説明し、高度に作動するロボットハンドによる、器用な、インハンドでの立方体の方向転換の問題に対する具体的なインスタンスを作成する。

要約(オリジナル)

Robotics policies are always subjected to complex, second order dynamics that entangle their actions with resulting states. In reinforcement learning (RL) contexts, policies have the burden of deciphering these complicated interactions over massive amounts of experience and complex reward functions to learn how to accomplish tasks. Moreover, policies typically issue actions directly to controllers like Operational Space Control (OSC) or joint PD control, which induces straightline motion towards these action targets in task or joint space. However, straightline motion in these spaces for the most part do not capture the rich, nonlinear behavior our robots need to exhibit, shifting the burden of discovering these behaviors more completely to the agent. Unlike these simpler controllers, geometric fabrics capture a much richer and desirable set of behaviors via artificial, second order dynamics grounded in nonlinear geometry. These artificial dynamics shift the uncontrolled dynamics of a robot via an appropriate control law to form behavioral dynamics. Behavioral dynamics unlock a new action space and safe, guiding behavior over which RL policies are trained. Behavioral dynamics enable bang-bang-like RL policy actions that are still safe for real robots, simplify reward engineering, and help sequence real-world, high-performance policies. We describe the framework more generally and create a specific instantiation for the problem of dexterous, in-hand reorientation of a cube by a highly actuated robot hand.

arxiv情報

著者 Karl Van Wyk,Ankur Handa,Viktor Makoviychuk,Yijie Guo,Arthur Allshire,Nathan D. Ratliff
発行日 2024-05-03 17:07:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク