GINA-3D: Learning to Generate Implicit Neural Assets in the Wild

要約

シミュレーション用のセンサー データから 3D 世界をモデル化することは、自動運転などのロボット学習の問題に対するテストおよび検証環境を開発するスケーラブルな方法です。
ただし、現実世界のような環境を手動で作成または再作成するのは難しく、コストがかかり、拡張性もありません。
最近の生成モデル技術は、豊富な 2D 画像のみを使用して 3D アセットを学習することで、このような課題に対処する有望な進歩を示していますが、人間が厳選した画像データセットや手動で作成した合成 3D 環境からのレンダリングを活用するため、依然として限界があります。
この論文では、カメラや LiDAR センサーからの実世界の運転データを使用して、さまざまな車両や歩行者のリアルな 3D 暗黙的ニューラル アセットを作成する生成モデルである GINA-3D を紹介します。
既存の画像データセットと比較すると、現実世界の運転設定では、オクルージョン、照明の変化、ロングテール分布により新たな課題が生じます。
GINA-3D は、画像の生成モデリングにおける最近の進歩に触発され、学習されたトライプレーン潜在構造を使用して、表現学習と生成モデリングを 2 つの段階に分離することで、これらの課題に取り組みます。
私たちのアプローチを評価するために、Waymo オープン データセットからの車両と歩行者の 120 万枚を超える画像と、建設機械、ゴミ収集車などのロングテール インスタンスの新しい 80,000 枚の画像セットを含む大規模なオブジェクト中心のデータセットを構築します。
そしてケーブルカー。
私たちのモデルを既存のアプローチと比較し、生成された画像とジオメトリの両方の品質と多様性において最先端のパフォーマンスを達成していることを実証します。

要約(オリジナル)

Modeling the 3D world from sensor data for simulation is a scalable way of developing testing and validation environments for robotic learning problems such as autonomous driving. However, manually creating or re-creating real-world-like environments is difficult, expensive, and not scalable. Recent generative model techniques have shown promising progress to address such challenges by learning 3D assets using only plentiful 2D images — but still suffer limitations as they leverage either human-curated image datasets or renderings from manually-created synthetic 3D environments. In this paper, we introduce GINA-3D, a generative model that uses real-world driving data from camera and LiDAR sensors to create realistic 3D implicit neural assets of diverse vehicles and pedestrians. Compared to the existing image datasets, the real-world driving setting poses new challenges due to occlusions, lighting-variations and long-tail distributions. GINA-3D tackles these challenges by decoupling representation learning and generative modeling into two stages with a learned tri-plane latent structure, inspired by recent advances in generative modeling of images. To evaluate our approach, we construct a large-scale object-centric dataset containing over 1.2M images of vehicles and pedestrians from the Waymo Open Dataset, and a new set of 80K images of long-tail instances such as construction equipment, garbage trucks, and cable cars. We compare our model with existing approaches and demonstrate that it achieves state-of-the-art performance in quality and diversity for both generated images and geometries.

arxiv情報

著者 Bokui Shen,Xinchen Yan,Charles R. Qi,Mahyar Najibi,Boyang Deng,Leonidas Guibas,Yin Zhou,Dragomir Anguelov
発行日 2023-08-28 06:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO パーマリンク