Gripper Keypose and Object Pointflow as Interfaces for Bimanual Robotic Manipulation

要約

二近操作は挑戦的でありながら重要なロボット能力であり、正確な空間的ローカリゼーションと汎用性の高い動きの軌跡を要求し、既存のアプローチに大きな課題をもたらします。
既存のアプローチは2つのカテゴリに分類されます。キーフレームベースの戦略は、キーフレームでグリッパーポーズを予測し、モーションプランナーを介してそれらを実行することと、各タイムステップで順次アクションを推定する継続的な制御方法です。
キーフレームベースの方法には、フレーム間の監督がなく、一貫して実行するのに苦労したり、湾曲した動きを実行したりしますが、連続的な方法は空間的知覚が弱いことに苦しんでいます。
これらの問題に対処するために、このペーパーでは、ターゲットグリッパーのポーズとオブジェクトポイントフローの予測を連続アクション推定と統合するエンドツーエンドフレームワークPPI(キーポースとポイントフローインターフェイス)を紹介します。
これらのインターフェイスにより、モデルはターゲット操作エリアに効果的に注意を払うことができ、全体的なフレームワークは多様で衝突のない軌跡をガイドします。
インターフェイスの予測と連続アクションの推定を組み合わせることにより、PPIは多様な二重操作タスクで優れたパフォーマンスを実証し、空間ローカリゼーションの強化と運動制限の処理における満足のいく柔軟性を提供します。
広範な評価では、PPIはシミュレートされた実験と現実世界の両方の実験の両方で以前の方法を大幅に上回り、RLBench2シミュレーションベンチマークでA +16.1%の改善で最先端のパフォーマンスを達成し、4つの挑戦的な現実世界のタスクにわたって平均 +27.5%増加します。
特に、PPIは、実世界のシナリオで強力な安定性、高精度、顕著な一般化機能を示します。
プロジェクトページ:https://yuyinyang3y.github.io/ppi/

要約(オリジナル)

Bimanual manipulation is a challenging yet crucial robotic capability, demanding precise spatial localization and versatile motion trajectories, which pose significant challenges to existing approaches. Existing approaches fall into two categories: keyframe-based strategies, which predict gripper poses in keyframes and execute them via motion planners, and continuous control methods, which estimate actions sequentially at each timestep. The keyframe-based method lacks inter-frame supervision, struggling to perform consistently or execute curved motions, while the continuous method suffers from weaker spatial perception. To address these issues, this paper introduces an end-to-end framework PPI (keyPose and Pointflow Interface), which integrates the prediction of target gripper poses and object pointflow with the continuous actions estimation. These interfaces enable the model to effectively attend to the target manipulation area, while the overall framework guides diverse and collision-free trajectories. By combining interface predictions with continuous actions estimation, PPI demonstrates superior performance in diverse bimanual manipulation tasks, providing enhanced spatial localization and satisfying flexibility in handling movement restrictions. In extensive evaluations, PPI significantly outperforms prior methods in both simulated and real-world experiments, achieving state-of-the-art performance with a +16.1% improvement on the RLBench2 simulation benchmark and an average of +27.5% gain across four challenging real-world tasks. Notably, PPI exhibits strong stability, high precision, and remarkable generalization capabilities in real-world scenarios. Project page: https://yuyinyang3y.github.io/PPI/

arxiv情報

著者 Yuyin Yang,Zetao Cai,Yang Tian,Jia Zeng,Jiangmiao Pang
発行日 2025-04-24 17:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク