要約
インハンドツール操作とは、単に手の中でツールを操作する(インハンドマニピュレーション)だけでなく、操作後の作業に適した把握を実現する操作である。
本研究は、深層強化学習により手持ちツールの操作スキルを実現することを目的としています。
この操作では、(A) 目的の把握を達成するために長期にわたる接触状態の変化を探索する必要があり、(B) 接触状態の遷移に応じて非常に変化に富んだ動作が必要なため、スキルの習得が困難になります。
(A) 成功した把握に対する報酬の希薄化につながり、(B) RL エージェントは非常に多様なアクションを学習するために状態アクション空間内を広範囲に探索する必要があり、サンプルの非効率につながります。
これらの問題に対処するために、この研究では接触状態遷移 (APriCoT) に基づくアクション プリミティブを提案します。
APriCoT は、3 つのアクション表現 (デタッチ、クロスオーバー、アタッチ) に基づいて操作を接触状態遷移として記述することにより、操作を短期アクション プリミティブに分解します。
各アクション プリミティブでは、指は短期間の同様のアクションを実行する必要があります。
各プリミティブのポリシーをトレーニングすることで、(A) と (B) の問題を軽減できます。
本研究では、インハンドツール操作の一例として、精密把握で把握した長尺物を半回転回転させて初期把握を達成するという基本動作に焦点を当てた。
実験の結果、既存の研究とは異なり、回転と所望の把握の両方に成功したことが実証されました。
さらに、このポリシーはオブジェクトの形状の変化に対して堅牢であることがわかりました。
要約(オリジナル)
In-hand tool manipulation is an operation that not only manipulates a tool within the hand (i.e., in-hand manipulation) but also achieves a grasp suitable for a task after the manipulation. This study aims to achieve an in-hand tool manipulation skill through deep reinforcement learning. The difficulty of learning the skill arises because this manipulation requires (A) exploring long-term contact-state changes to achieve the desired grasp and (B) highly-varied motions depending on the contact-state transition. (A) leads to a sparsity of a reward on a successful grasp, and (B) requires an RL agent to explore widely within the state-action space to learn highly-varied actions, leading to sample inefficiency. To address these issues, this study proposes Action Primitives based on Contact-state Transition (APriCoT). APriCoT decomposes the manipulation into short-term action primitives by describing the operation as a contact-state transition based on three action representations (detach, crossover, attach). In each action primitive, fingers are required to perform short-term and similar actions. By training a policy for each primitive, we can mitigate the issues from (A) and (B). This study focuses on a fundamental operation as an example of in-hand tool manipulation: rotating an elongated object grasped with a precision grasp by half a turn to achieve the initial grasp. Experimental results demonstrated that ours succeeded in both the rotation and the achievement of the desired grasp, unlike existing studies. Additionally, it was found that the policy was robust to changes in object shape.
arxiv情報
著者 | Daichi Saito,Atsushi Kanehira,Kazuhiro Sasabuchi,Naoki Wake,Jun Takamatsu,Hideki Koike,Katsushi Ikeuchi |
発行日 | 2024-07-16 07:02:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google