Programming by Demonstration for Long-Horizon Robot Tasks

要約

プログラムによるデモンストレーションからの学習 (LfD) の目標は、一連のユーザー デモンストレーションからロボットの動作を制御するために使用できるポリシーをプログラミング言語で学習することです。
この論文では、複数の条件を含むネストされたループなど、複雑な制御フロー構造を備えたプログラムの合成を必要とする長期ロボット タスクを対象とした、新しいプログラムによる LfD アルゴリズムを紹介します。
私たちが提案する手法は、まずターゲットプログラムの制御フローを捕捉するプログラムスケッチを学習し、次にデモンストレーションによるプログラミング問題の実現不可能性を証明するための新しい手法を組み込んだLLMガイド付き探索手順を使用してこのスケッチを完成させます。
私たちは、PROLEX と呼ばれる新しいツールにアプローチを実装し、複雑なタスクと環境を含む 120 のベンチマークに関する包括的な実験評価の結果を提示します。
120 秒の制限時間を与えられた場合、PROLEX は 80% のケースでデモンストレーションと一致するプログラムを見つけることができることを示します。
さらに、ソリューションが返されるタスクの 81% について、PROLEX はたった 1 回のデモン​​ストレーションでグラウンド トゥルース プログラムを見つけることができます。
比較すると、構文ガイド付き合成ツールである CVC5 は、グラウンド トゥルース プログラム スケッチが与えられた場合でも、ケースの 18% しか解決できず、LLM ベースのアプローチである GPT-Synth は、要求されるタスクのいずれも解決できません。
環境の複雑さに影響されます。

要約(オリジナル)

The goal of programmatic Learning from Demonstration (LfD) is to learn a policy in a programming language that can be used to control a robot’s behavior from a set of user demonstrations. This paper presents a new programmatic LfD algorithm that targets long-horizon robot tasks which require synthesizing programs with complex control flow structures, including nested loops with multiple conditionals. Our proposed method first learns a program sketch that captures the target program’s control flow and then completes this sketch using an LLM-guided search procedure that incorporates a novel technique for proving unrealizability of programming-by-demonstration problems. We have implemented our approach in a new tool called PROLEX and present the results of a comprehensive experimental evaluation on 120 benchmarks involving complex tasks and environments. We show that, given a 120 second time limit, PROLEX can find a program consistent with the demonstrations in 80% of the cases. Furthermore, for 81% of the tasks for which a solution is returned, PROLEX is able to find the ground truth program with just one demonstration. In comparison, CVC5, a syntax guided synthesis tool, is only able to solve 18% of the cases even when given the ground truth program sketch, and an LLM-based approach, GPT-Synth, is unable to solve any of the tasks due to the environment complexity.

arxiv情報

著者 Noah Patton,Kia Rahmani,Meghana Missula,Joydeep Biswas,Işil Dillig
発行日 2023-10-30 18:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.PL, cs.RO パーマリンク