要約
模倣学習(IL)は、専門家のデモンストレーションを通じてロボットが視覚運動スキルを獲得できるようにするのに効果的であることが証明されています。
ただし、従来のIL方法は、高品質でしばしば希少な専門家のデータに依存しており、共変量シフトに苦しむことによって制限されています。
これらの課題に対処するために、オフラインILの最近の進歩により、最適でない、ラベルのないデータセットがトレーニングに組み込まれています。
この論文では、タスク関連の軌跡フラグメントと豊富な環境ダイナミクスを活用することにより、混合品質のオフラインデータセットからのポリシー学習を強化するための新しいアプローチを提案します。
具体的には、不完全なデモンストレーションから状態アクションペアを縫う状態ベースの検索フレームワークを紹介し、より多様で有益なトレーニングの軌跡を生成します。
標準のILベンチマークと現実世界のロボットタスクに関する実験結果は、提案された方法が一般化とパフォーマンスの両方を大幅に改善することを示しています。
要約(オリジナル)
Imitation learning (IL) has proven effective for enabling robots to acquire visuomotor skills through expert demonstrations. However, traditional IL methods are limited by their reliance on high-quality, often scarce, expert data, and suffer from covariate shift. To address these challenges, recent advances in offline IL have incorporated suboptimal, unlabeled datasets into the training. In this paper, we propose a novel approach to enhance policy learning from mixed-quality offline datasets by leveraging task-relevant trajectory fragments and rich environmental dynamics. Specifically, we introduce a state-based search framework that stitches state-action pairs from imperfect demonstrations, generating more diverse and informative training trajectories. Experimental results on standard IL benchmarks and real-world robotic tasks showcase that our proposed method significantly improves both generalization and performance.
arxiv情報
著者 | Shuze Wang,Yunpeng Mei,Hongjie Cao,Yetian Yuan,Gang Wang,Jian Sun,Jie Chen |
発行日 | 2025-03-28 15:28:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google