A Reinforcement Learning Approach to Non-prehensile Manipulation through Sliding

要約

ロボットアプリケーションはますます多用途で動的なオブジェクトの処理を要求していますが、ほとんどの既存の手法は主に把握ベースの操作に焦点を当てており、非摂食タスクでの適用性を制限しています。
このニーズに対処するために、この研究では、特に表面上のオブジェクトをスライドするために、効率的な非摂食操作のための深い決定論的ポリシーグラデーション(DDPG)強化学習フレームワークを紹介します。
アルゴリズムは、水平面に硬く結合されたロボットアームの加速度を正確に制御することにより、線形軌道を生成し、表面の上にスライドするときにオブジェクトの相対的な操作を可能にします。
さらに、スライドプロセス中に摩擦力を動的に推定するために、2つの異なるアルゴリズムが開発されました。
これらのアルゴリズムは、各アクションの後にオンライン摩擦推定値を提供し、各アクションの後に重要なフィードバックとしてアクターモデルに戻されます。
このフィードバックメカニズムは、ポリシーの適応性と堅牢性を高め、さまざまな表面条件に応じてプラットフォームの加速をより正確に制御できます。
提案されたアルゴリズムは、シミュレーションと実際の実験を通じて検証されます。
結果は、提案されたフレームワークがさまざまな距離にわたってスライド操作を効果的に一般化し、さらに重要なことには、多様な摩擦特性を持つ異なる表面に適応することを示しています。
特に、訓練されたモデルは、ゼロショットSIMからリアル転送機能を示します。

要約(オリジナル)

Although robotic applications increasingly demand versatile and dynamic object handling, most existing techniques are predominantly focused on grasp-based manipulation, limiting their applicability in non-prehensile tasks. To address this need, this study introduces a Deep Deterministic Policy Gradient (DDPG) reinforcement learning framework for efficient non-prehensile manipulation, specifically for sliding an object on a surface. The algorithm generates a linear trajectory by precisely controlling the acceleration of a robotic arm rigidly coupled to the horizontal surface, enabling the relative manipulation of an object as it slides on top of the surface. Furthermore, two distinct algorithms have been developed to estimate the frictional forces dynamically during the sliding process. These algorithms provide online friction estimates after each action, which are fed back into the actor model as critical feedback after each action. This feedback mechanism enhances the policy’s adaptability and robustness, ensuring more precise control of the platform’s acceleration in response to varying surface condition. The proposed algorithm is validated through simulations and real-world experiments. Results demonstrate that the proposed framework effectively generalizes sliding manipulation across varying distances and, more importantly, adapts to different surfaces with diverse frictional properties. Notably, the trained model exhibits zero-shot sim-to-real transfer capabilities.

arxiv情報

著者 Hamidreza Raei,Elena De Momi,Arash Ajoudani
発行日 2025-02-24 14:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク