要約
ジェネラリストのロボットマニピュレーターは、多様な環境にわたってさまざまな操作スキルを学習する必要があります。
現在のロボット トレーニング パイプラインは、運動感覚のデモンストレーションやシミュレーション環境のプログラム、強化学習のための報酬関数のコード作成を人間に依存しています。
このような人間の関与は、さまざまなタスクや環境にわたってロボット学習をスケールアップする上で重要なボトルネックとなります。
我々は、言語と視覚の大規模な事前トレーニング済み生成モデルを使用して、3D アセット、タスクの説明、タスクの分解、報酬関数の生成を自動化することにより、シミュレーションでのロボットのスキル学習をスケールアップする方法である Generation to Simulation (Gen2Sim) を提案します。
画像拡散モデルを使用してオープンワールドの 2D オブジェクト中心の画像を 3D にリフトし、LLM にクエリを実行して妥当な物理パラメータを決定することで、シミュレーション用の 3D アセットを生成します。
生成されたアセットと人間が開発したアセットの URDF ファイルが与えられると、思考連鎖によって LLM にこれらを関連するタスクの説明、時間分解、および強化学習用の対応する Python 報酬関数にマッピングするよう促します。
Gen2Sim は、時間的に分解されていない報酬関数を使用した強化学習では失敗する、多様な長期タスクの学習ポリシーに成功することを示します。
Gen2Sim は、タスクと環境の開発を多様化および拡張することによって、また RL での時間的タスク分解を通じて強化学習された動作の発見を容易にすることによって、シミュレーションにおけるロボット マニピュレーターの強化学習をスケールアップするための実行可能な道を提供します。
私たちの仕事は何百ものシミュレートされたアセット、タスク、デモンストレーションに貢献しており、シミュレーションでの完全自律型ロボット操作スキルの習得に向けた一歩を踏み出しています。
要約(オリジナル)
Generalist robot manipulators need to learn a wide variety of manipulation skills across diverse environments. Current robot training pipelines rely on humans to provide kinesthetic demonstrations or to program simulation environments and to code up reward functions for reinforcement learning. Such human involvement is an important bottleneck towards scaling up robot learning across diverse tasks and environments. We propose Generation to Simulation (Gen2Sim), a method for scaling up robot skill learning in simulation by automating generation of 3D assets, task descriptions, task decompositions and reward functions using large pre-trained generative models of language and vision. We generate 3D assets for simulation by lifting open-world 2D object-centric images to 3D using image diffusion models and querying LLMs to determine plausible physics parameters. Given URDF files of generated and human-developed assets, we chain-of-thought prompt LLMs to map these to relevant task descriptions, temporal decompositions, and corresponding python reward functions for reinforcement learning. We show Gen2Sim succeeds in learning policies for diverse long horizon tasks, where reinforcement learning with non temporally decomposed reward functions fails. Gen2Sim provides a viable path for scaling up reinforcement learning for robot manipulators in simulation, both by diversifying and expanding task and environment development, and by facilitating the discovery of reinforcement-learned behaviors through temporal task decomposition in RL. Our work contributes hundreds of simulated assets, tasks and demonstrations, taking a step towards fully autonomous robotic manipulation skill acquisition in simulation.
arxiv情報
著者 | Pushkal Katara,Zhou Xian,Katerina Fragkiadaki |
発行日 | 2023-10-27 17:55:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google