Preferenced Oracle Guided Multi-mode Policies for Dynamic Bipedal Loco-Manipulation

要約

動的な局所操作では、オブジェクトと環境との効果的な全身制御と接触が豊富な相互作用が必要です。
既存の学習ベースのコントロール合成は、低レベルのスキルポリシーのトレーニングと、高レベルのポリシーまたは手すりの有限状態マシンで明示的に切り替えることに依存しており、準静的行動につながります。
対照的に、サッカーなどのダイナミックなタスクでは、ロボットがボールに向かって走り、ドリブルへの最適なアプローチに減速し、最終的には滑らかな動きの連続体であるゴールを蹴る必要があります。
この目的のために、私たちは優先されるOracleガイド付きマルチモードポリシー(OGMP)を提案して、単一のポリシーを学習し、必要なすべてのモードと優先遷移シーケンスを習得して、統合操作タスクを解決します。
ハイブリッドオートマトンをオラクルとして設計して、連続ダイナミクスと離散モードジャンプを備えた参照を生成して、境界のある探索を通じてガイド付きポリシーの最適化を実行します。
モード遷移の目的のシーケンスを学習するために、パフォーマンスを向上させるタスクに依存しない選好報酬を提示します。
提案されているアプローチは、全身制御を通じて、サッカーや移動箱などのタスクの運動操作が成功したことを示しています。
サッカーでは、単一のポリシーがボールに最適に到達し、コンタクトリッチドリブルに移行し、成功したゴールキックとボールストップを実行することを学びます。
Oracleの抽象化を活用して、同じ報酬の定義と重量を使用して、Hector V1、Berkeley Humanoid、Unitree G1、およびH1を含むさまざまな形態学でロボットの各局所操作タスクを解決します。

要約(オリジナル)

Dynamic loco-manipulation calls for effective whole-body control and contact-rich interactions with the object and the environment. Existing learning-based control synthesis relies on training low-level skill policies and explicitly switching with a high-level policy or a hand-designed finite state machine, leading to quasi-static behaviors. In contrast, dynamic tasks such as soccer require the robot to run towards the ball, decelerate to an optimal approach to dribble, and eventually kick a goal – a continuum of smooth motion. To this end, we propose Preferenced Oracle Guided Multi-mode Policies (OGMP) to learn a single policy mastering all the required modes and preferred sequence of transitions to solve uni-object loco-manipulation tasks. We design hybrid automatons as oracles to generate references with continuous dynamics and discrete mode jumps to perform a guided policy optimization through bounded exploration. To enforce learning a desired sequence of mode transitions, we present a task-agnostic preference reward that enhances performance. The proposed approach demonstrates successful loco-manipulation for tasks like soccer and moving boxes omnidirectionally through whole-body control. In soccer, a single policy learns to optimally reach the ball, transition to contact-rich dribbling, and execute successful goal kicks and ball stops. Leveraging the oracle’s abstraction, we solve each loco-manipulation task on robots with varying morphologies, including HECTOR V1, Berkeley Humanoid, Unitree G1, and H1, using the same reward definition and weights.

arxiv情報

著者 Prashanth Ravichandar,Lokesh Krishna,Nikhil Sobanbabu,Quan Nguyen
発行日 2025-03-28 03:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク