要約
最近、普及政策は、ロボット操作におけるマルチモーダルなタスクの処理において目覚ましい成果を示しています。
ただし、複合エラーと限られた外挿機能により持続する配布外の障害については基本的な制限があります。
これらの制限に対処する 1 つの方法は、ロボット ゲート型 DAgger です。これは、ロボット クエリ システムを使用した対話型の模倣学習で、ポリシーの展開中に専門家の助けを積極的に求めることができます。
ロボットゲート DAgger は大規模学習の高い可能性を秘めていますが、Ensemble-DAgger のような既存の手法は表現力の高いポリシーに苦戦しています。ポリシーの不一致を、マルチモーダルな意思決定ポイントにおける不確実性として誤解することがよくあります。
この問題に対処するために、拡散ポリシーのトレーニング目標を活用する効率的なロボットゲート DAgger アルゴリズムである Diff-DAgger を導入します。
スタッキング、プッシュ、プラグインなどのさまざまなロボット タスクにわたって Diff-DAgger を評価し、Diff-DAgger がタスクの失敗予測を 37%、タスク完了率を 14% 向上させ、実時間を最大で短縮することを示しました。
540%。
この取り組みによって、表現力豊かだがデータを大量に消費するポリシーを対話型ロボット学習設定に効率的に組み込む道が開かれることを願っています。
プロジェクト Web サイト: diffdagger.github.io
要約(オリジナル)
Recently, diffusion policy has shown impressive results in handling multi-modal tasks in robotic manipulation. However, it has fundamental limitations in out-of-distribution failures that persist due to compounding errors and its limited capability to extrapolate. One way to address these limitations is robot-gated DAgger, an interactive imitation learning with a robot query system to actively seek expert help during policy rollout. While robot-gated DAgger has high potential for learning at scale, existing methods like Ensemble-DAgger struggle with highly expressive policies: They often misinterpret policy disagreements as uncertainty at multi-modal decision points. To address this problem, we introduce Diff-DAgger, an efficient robot-gated DAgger algorithm that leverages the training objective of diffusion policy. We evaluate Diff-DAgger across different robot tasks including stacking, pushing, and plugging, and show that Diff-DAgger improves the task failure prediction by 37%, the task completion rate by 14%, and reduces the wall-clock time by up to 540%. We hope that this work opens up a path for efficiently incorporating expressive yet data-hungry policies into interactive robot learning settings. Project website: diffdagger.github.io
arxiv情報
著者 | Sung-Wook Lee,Yen-Ling Kuo |
発行日 | 2024-10-24 06:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google