要約
ロボットの器用な操作のための模倣学習、特に実際のロボットのセットアップでは、通常、多数のデモンストレーションが必要です。
この論文では、豊富な触感センシングデータの使用を活用し、微細な両手ピンチ把握を実現する、デモンストレーションからのデータ効率の高い学習フレームワークを紹介します。
具体的には、高次元の触覚情報を効果的に抽出してエンコードできる畳み込みオートエンコーダネットワークを採用しています。
さらに、模倣学習のための効率的なマルチセンサー融合を実現するフレームワークを開発し、ロボットがデモンストレーションから接触認識感覚運動スキルを学習できるようにします。
エンコードされた触覚機能を使用しないフレームワークとの比較研究では、豊富な接触情報を組み込むことの有効性が強調され、アクティブな接触検索による器用な両手による把握が可能になりました。
広範な実験により、数ショットのデモンストレーションから直接学んだ細かいピンチ把握ポリシーの堅牢性が実証されました。これには、異なる初期ポーズでの同じオブジェクトの把握、10 個の未確認の新しいオブジェクトへの一般化、外部からの押しや接触に対する堅牢でしっかりとした把握が含まれます。
非常に大きな摂動下で物体を落とした場合に、認識して反応的に再把握します。
さらに、顕著性マップ分析手法を使用して、ピンチ把握中のさまざまなモダリティにわたる重量分布を記述し、マルチモーダル情報を活用する際のフレームワークの有効性を確認します。
要約(オリジナル)
Imitation learning for robot dexterous manipulation, especially with a real robot setup, typically requires a large number of demonstrations. In this paper, we present a data-efficient learning from demonstration framework which exploits the use of rich tactile sensing data and achieves fine bimanual pinch grasping. Specifically, we employ a convolutional autoencoder network that can effectively extract and encode high-dimensional tactile information. Further, We develop a framework that achieves efficient multi-sensor fusion for imitation learning, allowing the robot to learn contact-aware sensorimotor skills from demonstrations. Our comparision study against the framework without using encoded tactile features highlighted the effectiveness of incorporating rich contact information, which enabled dexterous bimanual grasping with active contact searching. Extensive experiments demonstrated the robustness of the fine pinch grasp policy directly learned from few-shot demonstration, including grasping of the same object with different initial poses, generalizing to ten unseen new objects, robust and firm grasping against external pushes, as well as contact-aware and reactive re-grasping in case of dropping objects under very large perturbations. Furthermore, the saliency map analysis method is used to describe weight distribution across various modalities during pinch grasping, confirming the effectiveness of our framework at leveraging multimodal information.
arxiv情報
著者 | Xiaofeng Mao,Yucheng Xu,Ruoshi Wen,Mohammadreza Kasaei,Wanming Yu,Efi Psomopoulou,Nathan F. Lepora,Zhibin Li |
発行日 | 2024-03-17 20:46:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google