要約
ロボット制御におけるモデルフリー学習の有効性は、タスク固有の事前分布とヒューリスティックのカスタマイズされた統合に依存しているため、統一されたアプローチが必要です。
この論文では、オラクルと呼ばれる事前分布の一般クラスを定義し、オラクルのアンザッツを中心に許容状態を制限することを提案します。これにより、タスクに依存しないオラクル主導のポリシー最適化が実現します。
さらに、モジュール性を強化するために、タスクバイタル モードの概念を導入します。
コンパクトなモード セットと中間遷移をマスターするポリシーにより、永続的なタスクを解決できます。
提案されたアプローチは、16 自由度の動的二足歩行ロボット、ヘクターでのパルクールとダイビングという難しい二足歩行制御タスクで検証されています。
OGMP はタスクごとに 1 つのポリシーを実現し、多様なトラックでの無限のパルクールやさまざまな高さからの全方向ダイビングを解決し、多彩な機敏性を発揮します。
最後に、新しい潜在モード空間到達可能性分析を導入して、ポリシーが任意の状態で実行するための障害のないモードのセットを証明する実現可能なモード設定関数を計算することで、ポリシーのモード一般化を研究します。
要約(オリジナル)
The efficacy of model-free learning for robot control relies on the tailored integration of task-specific priors and heuristics, hence calling for a unified approach. In this paper, we define a general class for priors called oracles and propose bounding the permissible state around the oracle’s ansatz, resulting in task-agnostic oracle-guided policy optimization. Additionally, to enhance modularity, we introduce the notion of task-vital modes. A policy mastering a compact set of modes and intermediate transitions can then solve perpetual tasks. The proposed approach is validated in challenging biped control tasks: parkour and diving on a 16-DoF dynamic bipedal robot, Hector. OGMP results in a single policy per task, solving indefinite parkour over diverse tracks and omnidirectional diving from varied heights, exhibiting versatile agility. Finally, we introduce a novel latent mode space reachability analysis to study our policy’s mode generalization by computing a feasible mode set function through which we certify a set of failure-free modes for our policy to perform at any given state.
arxiv情報
著者 | Lokesh Krishna,Nikhil Sobanbabu,Quan Nguyen |
発行日 | 2024-06-14 06:18:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google