GenSim: Generating Robotic Simulation Tasks via Large Language Models

要約

一般的なロボット ポリシーをトレーニングするために大量の実世界のインタラクション データを収集するには、法外な費用がかかることが多いため、シミュレーション データを使用する動機になります。
ただし、既存のデータ生成方法は、新しいタスクを考え出し、検証するために人間の労力が必要となるため、一般にタスク レベルの多様性ではなく、シーン レベルの多様性 (オブジェクト インスタンスやポーズなど) に焦点を当ててきました。
このため、シミュレーション データに基づいてトレーニングされたポリシーがタスク レベルでの重要な一般化を実証することが困難になっています。
この論文では、大規模言語モデル (LLM) の基礎とコーディング能力を利用して、豊富なシミュレーション環境と専門家によるデモンストレーションを自動的に生成することを提案します。
GenSim と呼ばれる私たちのアプローチには 2 つのモードがあります。1 つはターゲット タスクが LLM に与えられ、LLM がターゲット タスクを解決するためのタスク カリキュラムを提案する、目標指向生成と、LLM が前のタスクからブートストラップして反復的に実行する探索的生成です。
より複雑なタスクを解決するのに役立つ新しいタスクを提案します。
GPT4 を使用して既存のベンチマークを 10 倍の 100 タスク以上に拡張し、その上で教師あり微調整を実施し、ロボット シミュレーション タスクのコード生成で微調整された GPT や Code Llama を含むいくつかの LLM を評価します。
さらに、LLM で生成されたシミュレーション プログラムをマルチタスク ポリシーのトレーニングに使用すると、タスク レベルの一般化が大幅に強化されることがわかりました。
さらに、最小限のシミュレーションから現実への適応により、GPT4 で生成されたシミュレーション タスクで事前トレーニングされたマルチタスク ポリシーは、現実世界の目に見えない長期タスクへのより強力な移行を示し、ベースラインを 25% 上回るパフォーマンスを示すことがわかりました。
コード、デモ、ビデオについては、プロジェクト Web サイト (https://liruiw.github.io/gensim) を参照してください。

要約(オリジナル)

Collecting large amounts of real-world interaction data to train general robotic policies is often prohibitively expensive, thus motivating the use of simulation data. However, existing methods for data generation have generally focused on scene-level diversity (e.g., object instances and poses) rather than task-level diversity, due to the human effort required to come up with and verify novel tasks. This has made it challenging for policies trained on simulation data to demonstrate significant task-level generalization. In this paper, we propose to automatically generate rich simulation environments and expert demonstrations by exploiting a large language models’ (LLM) grounding and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed generation, wherein a target task is given to the LLM and the LLM proposes a task curriculum to solve the target task, and exploratory generation, wherein the LLM bootstraps from previous tasks and iteratively proposes novel tasks that would be helpful in solving more complex tasks. We use GPT4 to expand the existing benchmark by ten times to over 100 tasks, on which we conduct supervised finetuning and evaluate several LLMs including finetuned GPTs and Code Llama on code generation for robotic simulation tasks. Furthermore, we observe that LLMs-generated simulation programs can enhance task-level generalization significantly when used for multitask policy training. We further find that with minimal sim-to-real adaptation, the multitask policies pretrained on GPT4-generated simulation tasks exhibit stronger transfer to unseen long-horizon tasks in the real world and outperform baselines by 25%. See the project website (https://liruiw.github.io/gensim) for code, demos, and videos.

arxiv情報

著者 Lirui Wang,Yiyang Ling,Zhecheng Yuan,Mohit Shridhar,Chen Bao,Yuzhe Qin,Bailin Wang,Huazhe Xu,Xiaolong Wang
発行日 2024-01-21 21:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク