Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation

要約

ロボット操作人間のデモンストレーションからの学習は、スキルを習得するための迅速な手段を提供しますが、多くの場合、多様なシーンやオブジェクトの配置全体に一般化が欠けています。
この制限は、特に器用な操作を必要とする複雑なタスクで、実際のアプリケーションを妨げます。
Vision-Language-action(VLA)パラダイムは、大規模なデータを活用して一般化を強化します。
ただし、データ不足のため、VLAのパフォーマンスはまだ限られています。
この作業では、一般化された器用な操作のための斬新でデータ効率の高いアプローチであるオブジェクトフォーカスアクター(OFA)を紹介します。
ofaは、器用な操作タスクで観察された一貫した末端軌道を活用し、効率的なポリシートレーニングを可能にします。
私たちの方法では、階層的なパイプライン:オブジェクトの知覚とポーズの推定、操作前のポーズ到着、およびポリシーの実行を採用しています。
このプロセスにより、さまざまな背景や位置レイアウトであっても、操作が焦点が合わせて効率的であることが保証されます。
7つのタスクにわたる包括的な実世界の実験は、OFAが位置とバックグラウンドの一般化テストの両方でベースライン方法を大幅に上回ることを示しています。
特に、OFAは10個のデモンストレーションで堅牢なパフォーマンスを実現し、データ効率を強調しています。

要約(オリジナル)

Robot manipulation learning from human demonstrations offers a rapid means to acquire skills but often lacks generalization across diverse scenes and object placements. This limitation hinders real-world applications, particularly in complex tasks requiring dexterous manipulation. Vision-Language-Action (VLA) paradigm leverages large-scale data to enhance generalization. However, due to data scarcity, VLA’s performance remains limited. In this work, we introduce Object-Focus Actor (OFA), a novel, data-efficient approach for generalized dexterous manipulation. OFA exploits the consistent end trajectories observed in dexterous manipulation tasks, allowing for efficient policy training. Our method employs a hierarchical pipeline: object perception and pose estimation, pre-manipulation pose arrival and OFA policy execution. This process ensures that the manipulation is focused and efficient, even in varied backgrounds and positional layout. Comprehensive real-world experiments across seven tasks demonstrate that OFA significantly outperforms baseline methods in both positional and background generalization tests. Notably, OFA achieves robust performance with only 10 demonstrations, highlighting its data efficiency.

arxiv情報

著者 Yihang Li,Tianle Zhang,Xuelong Wei,Jiayi Li,Lin Zhao,Dongchi Huang,Zhirui Fang,Minhua Zheng,Wenjun Dai,Xiaodong He
発行日 2025-05-21 04:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク