Diffusion Meets DAgger: Supercharging Eye-in-hand Imitation Learning

要約

模倣によってトレーニングされたポリシーの一般的な障害モードは、テスト時に実行エラーが悪化することです。
学習したポリシーが専門家のデモンストレーションには存在しなかった状態に遭遇すると、ポリシーは失敗し、劣化した動作につながります。
この問題に対するデータセット集約 (DAgger) アプローチは、これらの障害状態をカバーするためにより多くのデータを収集するだけです。
ただし、実際には、これは法外に高価になることがよくあります。
この研究では、目を合わせて模倣する学習問題のコストをかけずに DAgger の利点を享受する方法である Diffusion Meets DAgger (DMD) を提案します。
DMD は、分布外の状態をカバーするために新しいサンプルを収集するのではなく、拡散モデルの最近の進歩を利用して、拡散モデルを使用してこれらのサンプルを作成します。
これにより、少ないデモンストレーションでも堅牢なパフォーマンスが得られます。
Franka Research 3 を非把握的にプッシュするために行われた実験では、DMD はわずか 8 人の専門家によるデモンストレーションで 80% の成功率を達成できることが示されました。一方、単純な動作の複製は 20% にすぎません。
DMD は、競合する NeRF ベースの拡張スキームよりも 50% 優れたパフォーマンスを発揮します。

要約(オリジナル)

A common failure mode for policies trained with imitation is compounding execution errors at test time. When the learned policy encounters states that were not present in the expert demonstrations, the policy fails, leading to degenerate behavior. The Dataset Aggregation, or DAgger approach to this problem simply collects more data to cover these failure states. However, in practice, this is often prohibitively expensive. In this work, we propose Diffusion Meets DAgger (DMD), a method to reap the benefits of DAgger without the cost for eye-in-hand imitation learning problems. Instead of collecting new samples to cover out-of-distribution states, DMD uses recent advances in diffusion models to create these samples with diffusion models. This leads to robust performance from few demonstrations. In experiments conducted for non-prehensile pushing on a Franka Research 3, we show that DMD can achieve a success rate of 80% with as few as 8 expert demonstrations, where naive behavior cloning reaches only 20%. DMD also outperform competing NeRF-based augmentation schemes by 50%.

arxiv情報

著者 Xiaoyu Zhang,Matthew Chang,Pranav Kumar,Saurabh Gupta
発行日 2024-02-27 18:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク