Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation

要約

特にタスクの障害からの不完全なデータのためのデータ利用の改善は、現実世界での挑戦的で時間がかかり、高価なデータ収集プロセスのためにロボット操作に重要です。
現在の模倣学習(IL)は通常、不完全なデータを破棄し、成功した専門家データのみに焦点を当てています。
強化学習(RL)は探索と障害から学ぶことができますが、SIM2REALギャップと密な報酬とオンライン探査への依存により、実際のシナリオで効果的に適用することが困難になります。
この作業では、オフラインでロボット操作のモデルパフォーマンスを改善するための報酬情報を必要とせずに、不完全なデータを活用するという課題を征服することを目指しています。
具体的には、エキスパートと不完全なデータを組み合わせて、失敗した軌道セグメントの品質スコアを計算する自己監視データフィルタリングフレームワーク(SSDF)を導入します。
故障したデータからの高品質のセグメントは、トレーニングデータセットを拡張するために使用されます。
次に、強化されたデータセットを、ロボット操作タスクの下流のポリシー学習方法で使用できます。
フランカロボットアームを使用して、高忠実度Sapienシミュレーターと実世界のロボット操作タスクに基づいて構築されたManiskill2ベンチマークに関する広範な実験により、SSDFは高品質の不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボットの成功率を改善できることが示されました。
操作タスク。

要約(オリジナル)

Improving data utilization, especially for imperfect data from task failures, is crucial for robotic manipulation due to the challenging, time-consuming, and expensive data collection process in the real world. Current imitation learning (IL) typically discards imperfect data, focusing solely on successful expert data. While reinforcement learning (RL) can learn from explorations and failures, the sim2real gap and its reliance on dense reward and online exploration make it difficult to apply effectively in real-world scenarios. In this work, we aim to conquer the challenge of leveraging imperfect data without the need for reward information to improve the model performance for robotic manipulation in an offline manner. Specifically, we introduce a Self-Supervised Data Filtering framework (SSDF) that combines expert and imperfect data to compute quality scores for failed trajectory segments. High-quality segments from the failed data are used to expand the training dataset. Then, the enhanced dataset can be used with any downstream policy learning method for robotic manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks using the Franka robot arm demonstrated that the SSDF can accurately expand the training dataset with high-quality imperfect data and improve the success rates for all robotic manipulation tasks.

arxiv情報

著者 Kun Wu,Ning Liu,Zhen Zhao,Di Qiu,Jinming Li,Zhengping Che,Zhiyuan Xu,Qinru Qiu,Jian Tang
発行日 2025-02-17 06:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.9 パーマリンク