PLUNDER: Probabilistic Program Synthesis for Learning from Unlabeled and Noisy Demonstrations

要約

デモンストレーションからの学習 (LfD) は、ロボットに新しいタスクを実行するように教えるために広く研究されているパラダイムです。
LfD は、結果として得られるプログラム ポリシーがデータ効率が高く、解釈可能であり、正式な検証に適しているため、プログラム合成で特にうまく機能します。
ただし、LfD への既存の統合アプローチは、正確でラベル付けされたデモンストレーションに依存しており、人間の意思決定に固有の不確実性について推論することができません。
この論文では、これらの制限を克服するために期待値最大化 (EM) ループに確率的プログラム合成器を統合する新しい LfD アプローチである PLUNDER を提案します。
PLUNDER が必要とするのは、目的のタスク (リモート制御のモーション軌跡など) のラベルのない低レベルのデモンストレーションのみです。これにより、エンドユーザーは明示的なラベルを提供する必要がなくなり、より直感的な LfD エクスペリエンスが促進されます。
PLUNDER は、人間の意思決定に内在する作動エラーと不確実性を捉える確率論的ポリシーも生成します。
私たちの実験では、PLUNDER と最先端の LfD 技術を比較し、さまざまなロボット タスクでの利点を示しています。

要約(オリジナル)

Learning from demonstration (LfD) is a widely researched paradigm for teaching robots to perform novel tasks. LfD works particularly well with program synthesis since the resulting programmatic policy is data efficient, interpretable, and amenable to formal verification. However, existing synthesis approaches to LfD rely on precise and labeled demonstrations and are incapable of reasoning about the uncertainty inherent in human decision-making. In this paper, we propose PLUNDER, a new LfD approach that integrates a probabilistic program synthesizer in an expectation-maximization (EM) loop to overcome these limitations. PLUNDER only requires unlabeled low-level demonstrations of the intended task (e.g., remote-controlled motion trajectories), which liberates end-users from providing explicit labels and facilitates a more intuitive LfD experience. PLUNDER also generates a probabilistic policy that captures actuation errors and the uncertainties inherent in human decision making. Our experiments compare PLUNDER with state-of the-art LfD techniques and demonstrate its advantages across different robotic tasks.

arxiv情報

著者 Jimmy Xin,Linus Zheng,Jiayi Wei,Kia Rahmani,Jarrett Holtz,Isil Dillig,Joydeep Biswas
発行日 2023-03-02 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.PL, cs.RO パーマリンク