MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving

要約

自動運転のための教師なし世界モデルを学習すると、今日のシステムの推論能力が劇的に向上する可能性があります。
ただし、ほとんどの研究では世界の物理的属性が無視され、センサー データのみに焦点が当てられています。
私たちは、この課題に対処するために、空間ボクセル表現を備えたマルチモーダル ワールド モデルである MUVO を提案します。
私たちは生のカメラと LIDAR データを利用して、センサーに依存しない世界の幾何学的表現を学習します。
マルチモーダルな将来予測を実証し、空間表現によってカメラ画像と LIDAR 点群の両方の予測品質が向上することを示します。

要約(オリジナル)

Learning unsupervised world models for autonomous driving has the potential to improve the reasoning capabilities of today’s systems dramatically. However, most work neglects the physical attributes of the world and focuses on sensor data alone. We propose MUVO, a MUltimodal World Model with spatial VOxel representations, to address this challenge. We utilize raw camera and lidar data to learn a sensor-agnostic geometric representation of the world. We demonstrate multimodal future predictions and show that our spatial representation improves the prediction quality of both camera images and lidar point clouds.

arxiv情報

著者 Daniel Bogdoll,Yitian Yang,Tim Joseph,J. Marius Zöllner
発行日 2024-07-26 13:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク