要約
言語による指示とデモンストレーションは、ユーザーがロボットにパーソナライズされたタスクを教えるための 2 つの自然な方法です。
大規模言語モデル (LLM) の最近の進歩により、言語命令をロボット タスク用のコードに変換する際に目覚ましいパフォーマンスが示されています。
ただし、デモンストレーションとコードの両方の長さと複雑さのため、デモンストレーションをタスク コードに変換することは依然として課題であり、直接マッピングの学習は困難です。
この論文では、拡張された思考連鎖を介してデモンストレーションからロボット タスク コードを生成し、この 2 つを結び付ける共通の潜在仕様を定義する新しいフレームワークである Demo2Code を紹介します。
私たちのフレームワークは、堅牢な 2 段階のプロセスを採用しています: (1) デモを簡潔な仕様に凝縮する再帰的要約手法、および (2) 生成された仕様から各機能を再帰的に拡張するコード合成アプローチ。
私たちは、キッチン環境での多様な調理タスクをシミュレートするように設計された新しいゲーム ベンチマーク Robotouille を含む、さまざまなロボット タスク ベンチマークについて広範な評価を実施しています。
プロジェクトの Web サイトは https://portal-cornell.github.io/demo2code/ から入手できます。
要約(オリジナル)
Language instructions and demonstrations are two natural ways for users to teach robots personalized tasks. Recent progress in Large Language Models (LLMs) has shown impressive performance in translating language instructions into code for robotic tasks. However, translating demonstrations into task code continues to be a challenge due to the length and complexity of both demonstrations and code, making learning a direct mapping intractable. This paper presents Demo2Code, a novel framework that generates robot task code from demonstrations via an extended chain-of-thought and defines a common latent specification to connect the two. Our framework employs a robust two-stage process: (1) a recursive summarization technique that condenses demonstrations into concise specifications, and (2) a code synthesis approach that expands each function recursively from the generated specifications. We conduct extensive evaluation on various robot task benchmarks, including a novel game benchmark Robotouille, designed to simulate diverse cooking tasks in a kitchen environment. The project’s website is available at https://portal-cornell.github.io/demo2code/
arxiv情報
著者 | Huaxiaoyue Wang,Gonzalo Gonzalez-Pumariega,Yash Sharma,Sanjiban Choudhury |
発行日 | 2023-11-02 17:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google