要約
自己監視型スキル学習は、環境の根底にある力学を活用する有用な行動を獲得することを目的としています。
相互情報量の最大化に基づいた潜在変数モデルは、このタスクでは特に成功していますが、ロボット操作のコンテキストでは依然として苦労しています。
環境を構成するおそらく大きな自由度のセットに影響を与える必要があるため、相互情報量の最大化だけでは有用な操作動作を生み出すことはできません。
この制限に対処するために、ロボット操作に特に焦点を当てたスキル発見のためのマルチクリティカル学習アプローチである SLIM を導入します。
私たちの主な洞察は、アクタークリティカルフレームワークで複数のクリティカルを利用して複数の報酬関数を適切に組み合わせることで、有用なスキルへの収束を妨げる報酬間で発生する可能性のある干渉を克服しながら、ロボット操作のための潜在変数スキル発見の大幅な改善につながるということです。
さらに、テーブルトップ操作のコンテキストでは、階層型強化学習方式で安全で効率的な運動プリミティブを取得し、計画を通じてそれらを活用する、新しいスキル発見アプローチの適用可能性を実証し、スキルに対する最先端のアプローチを超えます。
大差で発見。
要約(オリジナル)
Self-supervised skill learning aims to acquire useful behaviors that leverage the underlying dynamics of the environment. Latent variable models, based on mutual information maximization, have been particularly successful in this task but still struggle in the context of robotic manipulation. As it requires impacting a possibly large set of degrees of freedom composing the environment, mutual information maximization fails alone in producing useful manipulation behaviors. To address this limitation, we introduce SLIM, a multi-critic learning approach for skill discovery with a particular focus on robotic manipulation. Our main insight is that utilizing multiple critics in an actor-critic framework to gracefully combine multiple reward functions leads to a significant improvement in latent-variable skill discovery for robotic manipulation while overcoming possible interference occurring among rewards which hinders convergence to useful skills. Furthermore, in the context of tabletop manipulation, we demonstrate the applicability of our novel skill discovery approach to acquire safe and efficient motor primitives in a hierarchical reinforcement learning fashion and leverage them through planning, surpassing the state-of-the-art approaches for skill discovery by a large margin.
arxiv情報
| 著者 | David Emukpere,Bingbing Wu,Julien Perez |
| 発行日 | 2024-02-01 18:07:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google