要約
新しい操作タスクを学習できる自律型ロボット システムは、産業を製造からサービス オートメーションに変革する準備が整っています。
しかし、最新の方法 (VIP や R3M など) は依然として大きなハードルに直面しており、特にロボットの実施形態間のドメインギャップと、特定のアクション空間内で成功するタスク実行のまばらさにより、不整合で曖昧なタスク表現が生じます。
我々は、2 つの主要な革新によってこれらの課題を克服することを目的としたフレームワークである Ag2Manip (エージェントに依存しない操作表現) を紹介します。1 つは人間の操作ビデオから派生した新しいエージェントに依存しない視覚表現であり、一般化可能性を高めるために実施形態の詳細は不明瞭になっています。
そして、エージェントに依存しないアクション表現は、ロボットの運動学をユニバーサルエージェントプロキシに抽象化し、エンドエフェクターとオブジェクト間の重要な相互作用を強調します。
FrankaKitchen、ManiSkill、PartManip などのシミュレートされたベンチマークにわたる Ag2Manip の実証的検証では、ドメイン固有のデモンストレーションなしでパフォーマンスが 325% 向上したことが示されています。
アブレーション研究は、この成功に対する視覚表現と動作表現の重要な貢献を強調しています。
評価を現実世界に拡張すると、Ag2Manip は模倣学習の成功率を 50% から 77.5% に大幅に向上させ、シミュレート環境と物理環境の両方でその有効性と汎用性を実証しました。
要約(オリジナル)
Autonomous robotic systems capable of learning novel manipulation tasks are poised to transform industries from manufacturing to service automation. However, modern methods (e.g., VIP and R3M) still face significant hurdles, notably the domain gap among robotic embodiments and the sparsity of successful task executions within specific action spaces, resulting in misaligned and ambiguous task representations. We introduce Ag2Manip (Agent-Agnostic representations for Manipulation), a framework aimed at surmounting these challenges through two key innovations: a novel agent-agnostic visual representation derived from human manipulation videos, with the specifics of embodiments obscured to enhance generalizability; and an agent-agnostic action representation abstracting a robot’s kinematics to a universal agent proxy, emphasizing crucial interactions between end-effector and object. Ag2Manip’s empirical validation across simulated benchmarks like FrankaKitchen, ManiSkill, and PartManip shows a 325% increase in performance, achieved without domain-specific demonstrations. Ablation studies underline the essential contributions of the visual and action representations to this success. Extending our evaluations to the real world, Ag2Manip significantly improves imitation learning success rates from 50% to 77.5%, demonstrating its effectiveness and generalizability across both simulated and physical environments.
arxiv情報
著者 | Puhao Li,Tengyu Liu,Yuyang Li,Muzhi Han,Haoran Geng,Shu Wang,Yixin Zhu,Song-Chun Zhu,Siyuan Huang |
発行日 | 2024-04-26 16:40:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google