In-Hand Re-grasp Manipulation with Passive Dynamic Actions via Imitation Learning

要約

再把握操作は人間工学に基づいたツールを利用して、人間がさまざまなタスクを完了するのを支援します。
特定のシナリオでは、人間はしばしば外力を利用して、ハンマーのようなツールを簡単かつ正確に握り直します。
受動的な動的アクション(重力など)を使用した掴み内スライド動作用のコントローラーに関するこれまでの開発は、指とオブジェクトの接触情報の把握に依存しており、さまざまな形状と重量配分を備えた個々のオブジェクトに合わせてカスタマイズされた設計が必要でした。
それは、さまざまな物体への適応性を制限します。
この論文では、物体の位置情報のみに依存し、物体の力学に関する最小限の事前知識を必要とする模倣学習 (IL) に基づくエンドツーエンドのスライディング モーション コントローラを提案します。
トレーニングの収束を促進するために、データ グローブを利用して専門家のデータ トラジェクトリを収集し、敵対的生成学習 (GAIL) を通じてポリシーをトレーニングします。
シミュレーション結果は、さまざまな摩擦係数、幾何学的形状、質量の物体を使って手で滑らせるタスクを実行する際のコントローラーの多用途性を示しています。
視覚的位置推定を使用して物理システムに移行することにより、コントローラーは平均成功率 86% を示し、ベースライン アルゴリズムの成功率である Behavior Cloning (BC) の 35% と Proximal Policy Optimization (PPO) の 20% を上回りました。

要約(オリジナル)

Re-grasp manipulation leverages on ergonomic tools to assist humans in accomplishing diverse tasks. In certain scenarios, humans often employ external forces to effortlessly and precisely re-grasp tools like a hammer. Previous development on controllers for in-grasp sliding motion using passive dynamic actions (e.g.,gravity) relies on apprehension of finger-object contact information, and requires customized design for individual objects with varied geometry and weight distribution. It limits their adaptability to diverse objects. In this paper, we propose an end-to-end sliding motion controller based on imitation learning (IL) that necessitates minimal prior knowledge of object mechanics, relying solely on object position information. To expedite training convergence, we utilize a data glove to collect expert data trajectories and train the policy through Generative Adversarial Imitation Learning (GAIL). Simulation results demonstrate the controller’s versatility in performing in-hand sliding tasks with objects of varying friction coefficients, geometric shapes, and masses. By migrating to a physical system using visual position estimation, the controller demonstrated an average success rate of 86%, surpassing the baseline algorithm’s success rate of 35% of Behavior Cloning(BC) and 20% of Proximal Policy Optimization (PPO).

arxiv情報

著者 Dehao Wei,Guokang Sun,Zeyu Ren,Shuang Li,Zhufeng Shao,Xiang Li,Nikos Tsagarakis,Shaohua Ma
発行日 2023-09-27 07:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク