STAP: Sequencing Task-Agnostic Policies

要約

ロボットのスキル獲得の進歩により、下流の操作タスク用に学習したスキルの汎用ライブラリを構築することが可能になりました。
ただし、これらのスキルを単純に次々と実行することは、長期計画で一般的なアクション間の依存関係を考慮せずに成功する可能性は低いです。
シーケンス タスクに依存しないポリシー (STAP) を提示します。これは、トレーニング中に操作スキルをトレーニングし、計画時に幾何学的な依存関係を調整して、トレーニング中にどのスキルにも見られなかった長期的なタスクを解決するためのスケーラブルなフレームワークです。
Q関数がスキルの実現可能性の尺度をエンコードすることを考えると、計画で順序付けられたすべてのスキルの共同成功を最大化する最適化問題を定式化します。これは、それらのQ値の積によって推定されます。
私たちの実験は、この目的関数がグラウンド トゥルース プランの実現可能性を近似し、計画の目的として使用すると、近視眼的な行動を減らし、それによって長期的なタスクの成功を促進することを示しています。
さらに、タスク プランナーによって提供されるスキル シーケンスの幾何学的な実現可能性を推定することにより、タスクおよびモーション プランニングに STAP を使用する方法を示します。
シミュレーションと実際のロボットでアプローチを評価します。
定性的な結果とコードは、https://sites.google.com/stanford.edu/stap/home で入手できます。

要約(オリジナル)

Advances in robotic skill acquisition have made it possible to build general-purpose libraries of learned skills for downstream manipulation tasks. However, naively executing these skills one after the other is unlikely to succeed without accounting for dependencies between actions prevalent in long-horizon plans. We present Sequencing Task-Agnostic Policies (STAP), a scalable framework for training manipulation skills and coordinating their geometric dependencies at planning time to solve long-horizon tasks never seen by any skill during training. Given that Q-functions encode a measure of skill feasibility, we formulate an optimization problem to maximize the joint success of all skills sequenced in a plan, which we estimate by the product of their Q-values. Our experiments indicate that this objective function approximates ground truth plan feasibility and, when used as a planning objective, reduces myopic behavior and thereby promotes long-horizon task success. We further demonstrate how STAP can be used for task and motion planning by estimating the geometric feasibility of skill sequences provided by a task planner. We evaluate our approach in simulation and on a real robot. Qualitative results and code are made available at https://sites.google.com/stanford.edu/stap/home.

arxiv情報

著者 Christopher Agia,Toki Migimatsu,Jiajun Wu,Jeannette Bohg
発行日 2023-03-09 19:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク