R$\times$R: Rapid eXploration for Reinforcement Learning via Sampling-based Reset Distributions and Imitation Pre-training

要約

器用な操作などの複雑なスキルに対する運動制御ポリシーの強化学習を可能にする方法を紹介します。
この空間のアクセス可能で有用な領域は、元の高次元状態空間の多様体に沿って複雑な構造を形成するため、このようなポリシーを訓練するための主な困難は、問題の状態空間を探索することの困難であると仮定します。
この研究では、サンプリング ベースの計画による探索を有効にしてサポートする方法を紹介します。
一般に適用可能な非ホロノミックな急速探索ランダム ツリー アルゴリズムを使用し、結果の構造を使用してモデルフリーの強化学習をブートストラップするための複数の方法を提示します。
私たちの方法は、これまでに示したものよりも難易度の高い、さまざまな挑戦的で器用な運動制御スキルを学習するのに効果的です。
特に、受動的な支持面を使用せずに、同時に複雑な物体を手で巧みに操作することを実現します。
これらのポリシーは実際のロボットにも効果的に適用されます。
プロジェクトの Web サイトでは、多数のサンプルビデオもご覧いただけます: https://sbrl.cs.columbia.edu

要約(オリジナル)

We present a method for enabling Reinforcement Learning of motor control policies for complex skills such as dexterous manipulation. We posit that a key difficulty for training such policies is the difficulty of exploring the problem state space, as the accessible and useful regions of this space form a complex structure along manifolds of the original high-dimensional state space. This work presents a method to enable and support exploration with Sampling-based Planning. We use a generally applicable non-holonomic Rapidly-exploring Random Trees algorithm and present multiple methods to use the resulting structure to bootstrap model-free Reinforcement Learning. Our method is effective at learning various challenging dexterous motor control skills of higher difficulty than previously shown. In particular, we achieve dexterous in-hand manipulation of complex objects while simultaneously securing the object without the use of passive support surfaces. These policies also transfer effectively to real robots. A number of example videos can also be found on the project website: https://sbrl.cs.columbia.edu

arxiv情報

著者 Gagan Khandate,Tristan L. Saidi,Siqi Shang,Eric T. Chang,Yang Liu,Seth Dennis,Johnson Adams,Matei Ciocarlie
発行日 2024-01-27 19:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク