Tactile-based Active Inference for Force-Controlled Peg-in-Hole Insertions

要約

強化学習 (RL) は、ペグインホールタスクにおける力制御ポリシーを効率的に学習する上で大きな期待を集めています。
しかし、ロボットは、グリッパーによる視覚的な遮蔽やペグの最初の把握姿勢の不確実性により、困難に直面することがよくあります。
これらの課題により、力制御による挿入ポリシーは、ペグがエンドエフェクタにしっかりと固定されている状況に制限されることがよくあります。
ビジョンベースの触覚センサーは、これらの問題に対処できる可能性のある豊富な触覚フィードバックを提供しますが、効果的な触覚ポリシーを学習するためにそれらを利用することは、計算量が多く、一般化することが困難です。
この論文では、大規模なデータセットでの広範なトレーニングを必要とせずに、能動推論を使用して傾斜したペグを穴に位置合わせできる堅牢な触覚挿入ポリシーを提案します。
私たちのアプローチはデュアル ポリシー アーキテクチャを採用しています。1 つのポリシーは挿入に焦点を当て、力制御と RL を統合して物体を穴に導きます。一方、もう 1 つのポリシーは触覚フィードバックに基づいてアクティブな推論を実行して、傾斜したペグを穴に位置合わせします。
実際の実験では、当社のデュアル ポリシー アーキテクチャはクリアランス 0.1 mm 未満の穴への成功率 90% を達成し、触覚フィードバックのない以前の方法 (5%) を大幅に上回りました。
アライメント ポリシーの一般化可能性を評価するために、5 つの異なるペグを使用して実験を実施し、複数のオブジェクトに対する効果的な適応を実証しました。

要約(オリジナル)

Reinforcement Learning (RL) has shown great promise for efficiently learning force control policies in peg-in-hole tasks. However, robots often face difficulties due to visual occlusions by the gripper and uncertainties in the initial grasping pose of the peg. These challenges often restrict force-controlled insertion policies to situations where the peg is rigidly fixed to the end-effector. While vision-based tactile sensors offer rich tactile feedback that could potentially address these issues, utilizing them to learn effective tactile policies is both computationally intensive and difficult to generalize. In this paper, we propose a robust tactile insertion policy that can align the tilted peg with the hole using active inference, without the need for extensive training on large datasets. Our approach employs a dual-policy architecture: one policy focuses on insertion, integrating force control and RL to guide the object into the hole, while the other policy performs active inference based on tactile feedback to align the tilted peg with the hole. In real-world experiments, our dual-policy architecture achieved 90% success rate into a hole with a clearance of less than 0.1 mm, significantly outperforming previous methods that lack tactile sensory feedback (5%). To assess the generalizability of our alignment policy, we conducted experiments with five different pegs, demonstrating its effective adaptation to multiple objects.

arxiv情報

著者 Tatsuya Kamijo,Ixchel G. Ramirez-Alpizar,Enrique Coronado,Gentiane Venture
発行日 2023-09-27 14:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク