Lessons from Learning to Spin ‘Pens’

要約

ハンマーやドライバーなどの多くの工具は同様の形状をしているため、ペンのような物体を手で操作することは日常生活において重要なスキルです。
しかし、現在の学習ベースの手法は、高品質のデモンストレーションが不足していることと、シミュレーションと現実世界の間に大きなギャップがあるため、このタスクに苦労しています。
この研究では、ペンのようなオブジェクトを回転させる機能を実証することで、学習ベースの手操作システムの限界を押し広げます。
まず強化学習を使用して、特権情報を使用して Oracle ポリシーをトレーニングし、シミュレーションで忠実度の高い軌跡データセットを生成します。
これには 2 つの目的があります。1) シミュレーションで感覚運動ポリシーを事前にトレーニングする。
2) 現実世界でオープンループ軌道リプレイを実行します。
次に、これらの現実世界の軌跡を使用して感覚運動ポリシーを微調整し、現実世界のダイナミクスに適応させます。
50 未満の軌道で、私たちのポリシーは、異なる物理的特性を持つ 10 個以上のペンのようなオブジェクトを複数回回転させることを学習します。
設計上の選択についての包括的な分析を提示し、開発中に学んだ教訓を共有します。

要約(オリジナル)

In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

arxiv情報

著者 Jun Wang,Ying Yuan,Haichuan Che,Haozhi Qi,Yi Ma,Jitendra Malik,Xiaolong Wang
発行日 2024-10-23 19:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク