要約
模倣によってトレーニングされたポリシーの一般的な障害モードは、テスト時に実行エラーが悪化することです。
学習したポリシーが専門家のデモンストレーションには存在しない状態に遭遇すると、ポリシーは失敗し、劣化した動作につながります。
この問題に対するデータセット集約 (DAgger) アプローチは、これらの障害状態をカバーするためにより多くのデータを収集するだけです。
ただし、実際には、これは法外に高価になることがよくあります。
この研究では、目を合わせて模倣する学習問題のコストをかけずに DAgger の利点を享受する方法である Diffusion Meets DAgger (DMD) を提案します。
DMD は、分布外の状態をカバーするために新しいサンプルを収集するのではなく、最近の拡散モデルの進歩を利用してこれらのサンプルを合成します。
これにより、少ないデモンストレーションでも堅牢なパフォーマンスが得られます。
押す、積み重ねる、注ぐ、シャツを掛けるという 4 つのタスクにわたって、DMD を行動クローン作成ベースラインと比較します。
プッシュでは、DMD はわずか 8 人の専門家のデモンストレーションで 80% の成功率を達成しますが、単純な動作のクローン作成ではわずか 20% に達します。
スタッキングでは、DMD は 5 つのカップで平均 92% の確率で成功しますが、BC では 40% です。
コーヒー豆を注ぐと、DMD は 80% の確率で別のカップに移行します。
最終的に、DMD は衣類ラックにシャツを掛けるのに 90% の成功率を達成しました。
要約(オリジナル)
A common failure mode for policies trained with imitation is compounding execution errors at test time. When the learned policy encounters states that are not present in the expert demonstrations, the policy fails, leading to degenerate behavior. The Dataset Aggregation, or DAgger approach to this problem simply collects more data to cover these failure states. However, in practice, this is often prohibitively expensive. In this work, we propose Diffusion Meets DAgger (DMD), a method to reap the benefits of DAgger without the cost for eye-in-hand imitation learning problems. Instead of collecting new samples to cover out-of-distribution states, DMD uses recent advances in diffusion models to synthesize these samples. This leads to robust performance from few demonstrations. We compare DMD against behavior cloning baseline across four tasks: pushing, stacking, pouring, and shirt hanging. In pushing, DMD achieves 80% success rate with as few as 8 expert demonstrations, where naive behavior cloning reaches only 20%. In stacking, DMD succeeds on average 92% of the time across 5 cups, versus 40% for BC. When pouring coffee beans, DMD transfers to another cup successfully 80% of the time. Finally, DMD attains 90% success rate for hanging shirt on a clothing rack.
arxiv情報
| 著者 | Xiaoyu Zhang,Matthew Chang,Pranav Kumar,Saurabh Gupta |
| 発行日 | 2024-06-05 17:33:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google