MUVO: A Multimodal Generative World Model for Autonomous Driving with Geometric Representations

要約

自動運転のための教師なし世界モデルを学習すると、今日のシステムの推論能力が劇的に向上する可能性があります。
ただし、ほとんどの研究では世界の物理的属性が無視され、センサー データのみに焦点が当てられています。
私たちは、この課題に対処するために、幾何学的なボクセル表現を備えたマルチモーダル ワールド モデルである MUVO を提案します。
私たちは生のカメラと LIDAR データを利用して、センサーに依存しない世界の幾何学的表現を学習します。これは計画などの下流タスクで直接使用できます。
マルチモーダルな将来予測を実証し、幾何学的表現によってカメラ画像と LIDAR 点群の両方の予測品質が向上することを示します。

要約(オリジナル)

Learning unsupervised world models for autonomous driving has the potential to improve the reasoning capabilities of today’s systems dramatically. However, most work neglects the physical attributes of the world and focuses on sensor data alone. We propose MUVO, a MUltimodal World Model with Geometric VOxel Representations to address this challenge. We utilize raw camera and lidar data to learn a sensor-agnostic geometric representation of the world, which can directly be used by downstream tasks, such as planning. We demonstrate multimodal future predictions and show that our geometric representation improves the prediction quality of both camera images and lidar point clouds.

arxiv情報

著者 Daniel Bogdoll,Yitian Yang,J. Marius Zöllner
発行日 2023-11-23 17:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク