URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

要約

視覚的にも物理的にも現実的なシミュレーション シーンを構築することは、ロボット工学からコンピューター ビジョンに至るまでの分野で実際的な関心のある問題です。
大規模なデータを必要とする学習手法を駆使する研究者が、物理的な意思決定システムのためのトレーニング データの新しいソースを探しているため、この問題の関連性はさらに高まっています。
ただし、シミュレーション モデルの構築は依然として手作業で行われることがよくあります。
グラフィック デザイナーとシミュレーション エンジニアは、事前定義されたアセットを使用して、現実的な動的特性と運動学的特性を備えた豊かなシーンを構築します。
これは少数のシーンに拡張できますが、データ駆動型ロボット制御に必要な一般化プロパティを実現するには、「自然な」運動学的および動的構造を備えた、多数の現実的なシーンを合成できるパイプラインが必要です。
この問題に対処するために、私たちは構造を推測し、自然画像からシミュレーション シーンを生成するモデルを開発し、Web スケールのデータセットからのスケーラブルなシーン生成を可能にします。
これらの画像からシミュレーションへのモデルをトレーニングするために、制御可能なテキストから画像への生成モデルを使用して、逆問題のモデリングを可能にするペアのトレーニング データを生成し、現実的な画像から完全なシーン モデルにマッピングを戻す方法を示します。
このパラダイムにより、意味論的および物理的リアリズムを備えたシミュレーションでシーンの大規模なデータセットを構築することがどのように可能になるかを示します。
実世界の画像から関節運動学的および動的構造を備えたシミュレーション シーンを生成し、これらをロボット制御ポリシーのトレーニングに使用する統合されたエンドツーエンド パイプラインを紹介します。
次に、多関節オブジェクトの操作などのタスクのために現実世界に堅牢に展開します。
そうすることで、私たちの取り組みは、シミュレーション環境を大規模に生成するためのパイプラインと、結果として得られる環境で堅牢なロボット制御ポリシーをトレーニングするための統合システムの両方を提供します。

要約(オリジナル)

Constructing simulation scenes that are both visually and physically realistic is a problem of practical interest in domains ranging from robotics to computer vision. This problem has become even more relevant as researchers wielding large data-hungry learning methods seek new sources of training data for physical decision-making systems. However, building simulation models is often still done by hand. A graphic designer and a simulation engineer work with predefined assets to construct rich scenes with realistic dynamic and kinematic properties. While this may scale to small numbers of scenes, to achieve the generalization properties that are required for data-driven robotic control, we require a pipeline that is able to synthesize large numbers of realistic scenes, complete with ‘natural’ kinematic and dynamic structures. To attack this problem, we develop models for inferring structure and generating simulation scenes from natural images, allowing for scalable scene generation from web-scale datasets. To train these image-to-simulation models, we show how controllable text-to-image generative models can be used in generating paired training data that allows for modeling of the inverse problem, mapping from realistic images back to complete scene models. We show how this paradigm allows us to build large datasets of scenes in simulation with semantic and physical realism. We present an integrated end-to-end pipeline that generates simulation scenes complete with articulated kinematic and dynamic structures from real-world images and use these for training robotic control policies. We then robustly deploy in the real world for tasks like articulated object manipulation. In doing so, our work provides both a pipeline for large-scale generation of simulation environments and an integrated system for training robust robotic control policies in the resulting environments.

arxiv情報

著者 Zoey Chen,Aaron Walsman,Marius Memmel,Kaichun Mo,Alex Fang,Karthikeya Vemuri,Alan Wu,Dieter Fox,Abhishek Gupta
発行日 2024-05-19 20:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク