DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model

要約

シミュレーションを通じてロボットのデモンストレーションを生成することは、ロボット データをスケールアップする効果的な方法として広く認識されています。
以前の研究では、エキスパート ポリシーを生成するために強化学習エージェントをトレーニングすることがよくありましたが、このアプローチではサンプル効率が不足しています。
最近、微分可能なシミュレーションを介してロボットのデモンストレーションを生成する試みが行われています。これは有望ですが、労働集約的なプロセスである報酬設計に大きく依存しています。
この論文では、微分可能な物理シミュレーション、微分可能なレンダリング、および視覚言語モデルを統合して、ロボット デモンストレーションの自動かつ効率的な生成を可能にする新しいフレームワークである DiffGen を提案します。
シミュレートされたロボット操作シナリオと自然言語命令が与えられると、DiffGen は、言語命令の埋め込みと操作後のシミュレートされた観察の埋め込みとの間の距離を最小限に抑えることで、現実的なロボットのデモンストレーションを生成できます。
埋め込みは視覚言語モデルから取得され、微分可能シミュレーション、微分可能レンダリング、および視覚言語モデルのコンポーネントを通じて勾配を計算して下降させることによって最適化が達成され、それによって指定されたタスクが達成されます。
実験では、DiffGen を使用すると、人間の労力やトレーニング時間を最小限に抑えながら、効率的かつ効果的にロボット データを生成できることが実証されました。

要約(オリジナル)

Generating robot demonstrations through simulation is widely recognized as an effective way to scale up robot data. Previous work often trained reinforcement learning agents to generate expert policies, but this approach lacks sample efficiency. Recently, a line of work has attempted to generate robot demonstrations via differentiable simulation, which is promising but heavily relies on reward design, a labor-intensive process. In this paper, we propose DiffGen, a novel framework that integrates differentiable physics simulation, differentiable rendering, and a vision-language model to enable automatic and efficient generation of robot demonstrations. Given a simulated robot manipulation scenario and a natural language instruction, DiffGen can generate realistic robot demonstrations by minimizing the distance between the embedding of the language instruction and the embedding of the simulated observation after manipulation. The embeddings are obtained from the vision-language model, and the optimization is achieved by calculating and descending gradients through the differentiable simulation, differentiable rendering, and vision-language model components, thereby accomplishing the specified task. Experiments demonstrate that with DiffGen, we could efficiently and effectively generate robot data with minimal human effort or training time.

arxiv情報

著者 Yang Jin,Jun Lv,Shuqiang Jiang,Cewu Lu
発行日 2024-05-12 15:38:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク