要約
この文書は 2 つの寄稿を組み合わせたものです。
まず、「Language-World」と呼ばれる Meta-World ベンチマークの拡張機能を導入します。これにより、半構造化自然言語クエリと自然言語を使用して記述されたスクリプト スキルを使用して、シミュレートされたロボット環境で大規模な言語モデルを動作させることができます。
Meta-World と同じ一連のタスクを使用することで、Language-World の結果を Meta-World の結果と簡単に比較でき、大規模言語モデル (LLM) を使用した最近の手法と深層強化学習を使用した手法との比較点が可能になります。
2 番目に、プラン条件付き動作クローニング (PCBC) と呼ばれる方法を導入します。これにより、エンドツーエンドのデモンストレーションを使用して高レベルのプランの動作を微調整できます。
Language-World を使用して、PCBC がさまざまな数ショット方式で強力なパフォーマンスを達成でき、多くの場合、わずか 1 回のデモンストレーションでタスクの一般化を達成できることを示します。
Language-World を https://github.com/krzentner/ language-world/ でオープンソース ソフトウェアとして利用できるようにしました。
要約(オリジナル)
This paper combines two contributions. First, we introduce an extension of the Meta-World benchmark, which we call ‘Language-World,’ which allows a large language model to operate in a simulated robotic environment using semi-structured natural language queries and scripted skills described using natural language. By using the same set of tasks as Meta-World, Language-World results can be easily compared to Meta-World results, allowing for a point of comparison between recent methods using Large Language Models (LLMs) and those using Deep Reinforcement Learning. Second, we introduce a method we call Plan Conditioned Behavioral Cloning (PCBC), that allows finetuning the behavior of high-level plans using end-to-end demonstrations. Using Language-World, we show that PCBC is able to achieve strong performance in a variety of few-shot regimes, often achieving task generalization with as little as a single demonstration. We have made Language-World available as open-source software at https://github.com/krzentner/language-world/.
arxiv情報
著者 | K. R. Zentner,Ryan Julian,Brian Ichter,Gaurav S. Sukhatme |
発行日 | 2023-10-25 21:46:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google