要約
タスク固有の学習ベースの制御合成フレームワークが優れた経験的成果を達成している一方で、タスクの一般概念を十分に解決するための最適なポリシーを体系的に構築する統一されたフレームワークが存在しません。
したがって、我々は、2 つの重要なアイデアを活用したタスク中心の制御合成の理論的枠組みを提案します。1) ポリシーの最適化をガイドする、次善のタスクベースの事前分布を制限なく統合するためのオラクル主導のポリシー最適化。2) タスク
タスクの解決を一連の行動モードの実行に分解するための重要なマルチモーダリティ。
提案されたアプローチにより、16 自由度の動的二足歩行ロボットでの非常に機敏なパルクールとダイビングが実現します。
取得したポリシーはトラック上を無限に進み、パルクール タスクでさまざまな長さと高さの跳躍やジャンプを実行します。
ダイブ タスクに対応して、ポリシーはさまざまな初期高さからのフロント、バック、サイド フリップを示します。
最後に、新しい潜在モード空間到達可能性分析を導入し、任意の状態でポリシーが実行するための障害のないモードのセットを証明する実現可能なモード設定関数を計算することによって、ポリシーの多用途性と一般化を研究します。
要約(オリジナル)
Amidst task-specific learning-based control synthesis frameworks that achieve impressive empirical results, a unified framework that systematically constructs an optimal policy for sufficiently solving a general notion of a task is absent. Hence, we propose a theoretical framework for a task-centered control synthesis leveraging two critical ideas: 1) oracle-guided policy optimization for the non-limiting integration of sub-optimal task-based priors to guide the policy optimization and 2) task-vital multimodality to break down solving a task into executing a sequence of behavioral modes. The proposed approach results in highly agile parkour and diving on a 16-DoF dynamic bipedal robot. The obtained policy advances indefinitely on a track, performing leaps and jumps of varying lengths and heights for the parkour task. Corresponding to the dive task, the policy demonstrates front, back, and side flips from various initial heights. Finally, we introduce a novel latent mode space reachability analysis to study our policies’ versatility and generalization by computing a feasible mode set function through which we certify a set of failure-free modes for our policy to perform at any given state.
arxiv情報
著者 | Lokesh Krishna,Nikhil Sobanbabu,Quan Nguyen |
発行日 | 2024-03-07 04:21:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google