要約
自己監視型スキル学習は、環境の根底にある力学を活用する有用な行動を獲得することを目的としています。
相互情報量の最大化に基づく潜在変数モデルは、このタスクでは成功していますが、ロボット操作のコンテキストでは依然として困難を伴います。
環境を構成するおそらく大きな自由度のセットに影響を与える必要があるため、相互情報量の最大化だけでは有用で安全な操作動作を生み出すことはできません。
さらに、単純な組み合わせによってスキル発見の報酬を追加の報酬で強化することでこの問題に取り組むと、望ましい動作を生成できない可能性があります。
この制限に対処するために、ロボット操作に特に焦点を当てたスキル発見のためのマルチクリティカル学習アプローチである SLIM を導入します。
私たちの主な洞察は、アクタークリティカルフレームワークで複数のクリティカルを利用して複数の報酬関数を適切に組み合わせることで、有用なスキルへの収束を妨げる報酬間で発生する可能性のある干渉を克服しながら、ロボット操作のための潜在変数スキル発見の大幅な改善につながるということです。
さらに、テーブルトップ操作のコンテキストでは、階層型強化学習方式で安全で効率的な運動プリミティブを取得し、計画を通じてそれらを活用するための新しいスキル発見アプローチの適用可能性を実証し、スキル発見のベースラインアプローチを大幅に上回ります。
要約(オリジナル)
Self-supervised skill learning aims to acquire useful behaviors that leverage the underlying dynamics of the environment. Latent variable models, based on mutual information maximization, have been successful in this task but still struggle in the context of robotic manipulation. As it requires impacting a possibly large set of degrees of freedom composing the environment, mutual information maximization fails alone in producing useful and safe manipulation behaviors. Furthermore, tackling this by augmenting skill discovery rewards with additional rewards through a naive combination might fail to produce desired behaviors. To address this limitation, we introduce SLIM, a multi-critic learning approach for skill discovery with a particular focus on robotic manipulation. Our main insight is that utilizing multiple critics in an actor-critic framework to gracefully combine multiple reward functions leads to a significant improvement in latent-variable skill discovery for robotic manipulation while overcoming possible interference occurring among rewards which hinders convergence to useful skills. Furthermore, in the context of tabletop manipulation, we demonstrate the applicability of our novel skill discovery approach to acquire safe and efficient motor primitives in a hierarchical reinforcement learning fashion and leverage them through planning, significantly surpassing baseline approaches for skill discovery.
arxiv情報
著者 | David Emukpere,Bingbing Wu,Julien Perez,Jean-Michel Renders |
発行日 | 2024-03-21 10:21:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google