COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping

要約

このペーパーでは、閉塞されたロボットの把握の課題、つまり、表面衝突などの環境制約のために、望ましい把握ポーズが運動的に実行不可能な状況で把握します。
従来のロボット操作アプローチは、これらの状況で一般的に人間が一般的に使用する非摂食または両倍の戦略の複雑さと闘っています。
タスクの固有の複雑さのために、最先端の強化学習(RL)方法は不適切です。
対照的に、デモンストレーションから学ぶには、かなりの数の専門家デモを収集する必要がありますが、これはしばしば実行不可能です。
代わりに、両手が調整してオブジェクトを安定させ、方向転換する人間の操作戦略に触発されて、この課題に取り組むための二元的なロボットセットアップに焦点を当てます。
特に、2つの調整されたポリシーを活用する学習ベースのアプローチ:自己監視データセットを使用して安定化ポーズを生成し、RLLを使用して訓練された把握ポリシーを訓練する学習ベースのアプローチ、およびRL
ターゲットオブジェクトを再配分および把握します。
重要な貢献は、価値関数誘導ポリシー調整にあります。
具体的には、把握ポリシーのRLトレーニング中に、制約ポリシーの出力は、共同トレーニングされた価値関数からの勾配を通じて洗練され、両手調整とタスクのパフォーマンスが向上します。
最後に、Combo-Graspは教師と学生のポリシーの蒸留を採用して、現実世界の環境でポイントクラウドベースのポリシーを効果的に展開しています。
経験的評価は、コンボグラスが競争力のあるベースラインアプローチと比較してタスクの成功率を大幅に改善することを示しています。

要約(オリジナル)

This paper addresses the challenge of occluded robot grasping, i.e. grasping in situations where the desired grasp poses are kinematically infeasible due to environmental constraints such as surface collisions. Traditional robot manipulation approaches struggle with the complexity of non-prehensile or bimanual strategies commonly used by humans in these circumstances. State-of-the-art reinforcement learning (RL) methods are unsuitable due to the inherent complexity of the task. In contrast, learning from demonstration requires collecting a significant number of expert demonstrations, which is often infeasible. Instead, inspired by human bimanual manipulation strategies, where two hands coordinate to stabilise and reorient objects, we focus on a bimanual robotic setup to tackle this challenge. In particular, we introduce Constraint-based Manipulation for Bimanual Occluded Grasping (COMBO-Grasp), a learning-based approach which leverages two coordinated policies: a constraint policy trained using self-supervised datasets to generate stabilising poses and a grasping policy trained using RL that reorients and grasps the target object. A key contribution lies in value function-guided policy coordination. Specifically, during RL training for the grasping policy, the constraint policy’s output is refined through gradients from a jointly trained value function, improving bimanual coordination and task performance. Lastly, COMBO-Grasp employs teacher-student policy distillation to effectively deploy point cloud-based policies in real-world environments. Empirical evaluations demonstrate that COMBO-Grasp significantly improves task success rates compared to competitive baseline approaches, with successful generalisation to unseen objects in both simulated and real-world environments.

arxiv情報

著者 Jun Yamada,Alexander L. Mitchell,Jack Collins,Ingmar Posner
発行日 2025-02-12 01:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク