要約
この論文では、受動的支持面を使用せずにオブジェクトを固定しながら、複雑なオブジェクトの器用な操作を実現する新しい方法を紹介します。
強化学習フレームワークでこのようなポリシーを訓練する際の主な困難は、問題状態空間の探索の困難であると仮定します。これは、この空間のアクセス可能な領域が高次元空間の多様体に沿って複雑な構造を形成しているためです。
この課題に対処するために、非ホロノミックな急速探索ランダム ツリー アルゴリズムの 2 つのバージョンを使用します。
1 つのバージョンはより一般的ですが、環境の遷移関数を明示的に使用する必要があります。2 つ目のバージョンは操作固有の運動学的制約を使用してサンプル効率を向上させます。
どちらの場合も、サンプリングベースの探索によって見つかった状態を使用して、モデルフリーの強化学習による完全な動的制約の下でトレーニング制御ポリシーを有効にするリセット分布を生成します。
これらのポリシーは、これまでに示したものよりも難易度の高い操作問題に対して有効であり、実際のロボットにも効果的に移行できることを示します。
実際のデモンストレーションのビデオは、プロジェクトの Web サイトでご覧いただけます: https://sbrl.cs.columbia.edu/
要約(オリジナル)
In this paper, we present a novel method for achieving dexterous manipulation of complex objects, while simultaneously securing the object without the use of passive support surfaces. We posit that a key difficulty for training such policies in a Reinforcement Learning framework is the difficulty of exploring the problem state space, as the accessible regions of this space form a complex structure along manifolds of a high-dimensional space. To address this challenge, we use two versions of the non-holonomic Rapidly-Exploring Random Trees algorithm; one version is more general, but requires explicit use of the environment’s transition function, while the second version uses manipulation-specific kinematic constraints to attain better sample efficiency. In both cases, we use states found via sampling-based exploration to generate reset distributions that enable training control policies under full dynamic constraints via model-free Reinforcement Learning. We show that these policies are effective at manipulation problems of higher difficulty than previously shown, and also transfer effectively to real robots. Videos of the real-hand demonstrations can be found on the project website: https://sbrl.cs.columbia.edu/
arxiv情報
著者 | Gagan Khandate,Siqi Shang,Eric T. Chang,Tristan Luca Saidi,Yang Liu,Seth Matthew Dennis,Johnson Adams,Matei Ciocarlie |
発行日 | 2023-05-23 09:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google