要約
模倣学習 (IL) は、デモンストレーションを使用してロボットに新しいタスクの実行を教えるための有望なパラダイムです。
IL に対する既存のアプローチのほとんどはニューラル ネットワーク (NN) を利用していますが、これらの方法にはいくつかのよく知られた制限があります: 1) 大量のトレーニング データが必要、2) 解釈が難しい、3) 修復と適応が難しい
。
プログラムによる模倣学習 (PIL) に対する関心が高まっており、上記の制限に対処する上で大きな期待が寄せられています。
PIL では、学習されたポリシーがプログラミング言語で表現されるため、解釈や修復が容易になります。
ただし、最先端の PIL アルゴリズムはアクション ラベルへのアクセスを前提としており、騒々しい現実世界のデモンストレーションから学習するのに苦労しています。
この論文では、これらの欠点に対処するために、反復的期待最大化 (EM) フレームワークに確率的プログラム シンセサイザーを統合する新しい PIL アルゴリズム PLUNDER を提案します。
既存の PIL アプローチとは異なり、PLUNDER は、現実世界のデモンストレーションに固有の不確実性をモデル化するのに特に適した確率論的なプログラム ポリシーを合成します。
私たちのアプローチは、EM ループを活用して、欠落しているアクション ラベルと最も可能性の高い確率的ポリシーを同時に推論します。
確立されたいくつかの IL 手法に対して PLUNDER をベンチマークし、ノイズ下での 5 つの挑戦的な模倣学習タスクにわたってその優位性を実証します。
PLUNDER ポリシーは、指定されたデモンストレーションとの一致において 95% の精度を達成し、次に優れたベースラインを 19% 上回っています。
さらに、PLUNDER によって生成されたポリシーは、最も近いベースラインよりも 17% 高い頻度でタスクを正常に完了します。
要約(オリジナル)
Imitation Learning (IL) is a promising paradigm for teaching robots to perform novel tasks using demonstrations. Most existing approaches for IL utilize neural networks (NN), however, these methods suffer from several well-known limitations: they 1) require large amounts of training data, 2) are hard to interpret, and 3) are hard to repair and adapt. There is an emerging interest in programmatic imitation learning (PIL), which offers significant promise in addressing the above limitations. In PIL, the learned policy is represented in a programming language, making it amenable to interpretation and repair. However, state-of-the-art PIL algorithms assume access to action labels and struggle to learn from noisy real-world demonstrations. In this paper, we propose PLUNDER, a novel PIL algorithm that integrates a probabilistic program synthesizer in an iterative Expectation-Maximization (EM) framework to address these shortcomings. Unlike existing PIL approaches, PLUNDER synthesizes probabilistic programmatic policies that are particularly well-suited for modeling the uncertainties inherent in real-world demonstrations. Our approach leverages an EM loop to simultaneously infer the missing action labels and the most likely probabilistic policy. We benchmark PLUNDER against several established IL techniques, and demonstrate its superiority across five challenging imitation learning tasks under noise. PLUNDER policies achieve 95% accuracy in matching the given demonstrations, outperforming the next best baseline by 19%. Additionally, policies generated by PLUNDER successfully complete the tasks 17% more frequently than the nearest baseline.
arxiv情報
著者 | Jimmy Xin,Linus Zheng,Kia Rahmani,Jiayi Wei,Jarrett Holtz,Isil Dillig,Joydeep Biswas |
発行日 | 2024-04-04 20:17:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google