要約
最近、拡散ポリシーは、ロボット操作におけるマルチモーダルタスクの処理において印象的な結果を示しています。
ただし、調合エラーと外挿する能力が制限されているために持続する、分散型の障害には基本的な制限があります。
これらの制限に対処する1つの方法は、ロボットゲートダガー、ロボットクエリシステムを使用したインタラクティブな模倣学習であり、ポリシーの展開中に専門家の助けを積極的に求めています。
ロボットゲートダガーは大規模な学習の可能性が高いが、アンサンブルダガーのような既存の方法は非常に表現力豊かなポリシーと闘っている。彼らはしばしばマルチモーダルの決定点での不確実性として政策の意見の不一致を誤解している。
この問題に対処するために、拡散ポリシーのトレーニング目標を活用する効率的なロボット依存性ダガーアルゴリズムであるDiff-Daggerを紹介します。
スタッキング、プッシュ、プラグを含むさまざまなロボットタスクにわたってDiff-Daggerを評価し、Diff-Daggerがタスク障害予測を39.0%改善し、タスクの完了率を20.6%改善し、壁1杯の時間を7.8倍に短縮することを示します。
この作業が、表現力豊かでデータに飢えたポリシーをインタラクティブなロボット学習設定に効率的に組み込むための道を開くことを願っています。
プロジェクトのWebサイトは、https://diffdagger.github.ioで入手できます。
要約(オリジナル)
Recently, diffusion policy has shown impressive results in handling multi-modal tasks in robotic manipulation. However, it has fundamental limitations in out-of-distribution failures that persist due to compounding errors and its limited capability to extrapolate. One way to address these limitations is robot-gated DAgger, an interactive imitation learning with a robot query system to actively seek expert help during policy rollout. While robot-gated DAgger has high potential for learning at scale, existing methods like Ensemble-DAgger struggle with highly expressive policies: They often misinterpret policy disagreements as uncertainty at multi-modal decision points. To address this problem, we introduce Diff-DAgger, an efficient robot-gated DAgger algorithm that leverages the training objective of diffusion policy. We evaluate Diff-DAgger across different robot tasks including stacking, pushing, and plugging, and show that Diff-DAgger improves the task failure prediction by 39.0%, the task completion rate by 20.6%, and reduces the wall-clock time by a factor of 7.8. We hope that this work opens up a path for efficiently incorporating expressive yet data-hungry policies into interactive robot learning settings. The project website is available at: https://diffdagger.github.io.
arxiv情報
著者 | Sung-Wook Lee,Yen-Ling Kuo |
発行日 | 2025-03-19 15:46:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google