MUVO: A Multimodal Generative World Model for Autonomous Driving with Geometric Representations

要約

自律運転の世界モデルは、今日のシステムの推論能力を劇的に改善する可能性があります。
ただし、ほとんどの作業はカメラデータに焦点を当てており、LIDARデータを活用するか、両方を組み合わせて自動車両センサーのセットアップをよりよく表すものがあります。
さらに、生センサーの予測は3D占有予測よりも実用的ではありませんが、マルチモーダルセンサーデータと3D占有予測の両方を組み合わせることの効果を調べる作業はありません。
この作業では、幾何学的なボクセル表現(MUVO)を備えたマルチモーダルワールドモデルを使用した一連の実験を実行して、センサーデータ予測への影響をよりよく理解するために、さまざまなセンサー融合戦略を評価します。
また、現在のセンサー融合アプローチの潜在的な弱点を分析し、3D占有率をさらに予測することの利点を調べます。

要約(オリジナル)

World models for autonomous driving have the potential to dramatically improve the reasoning capabilities of today’s systems. However, most works focus on camera data, with only a few that leverage lidar data or combine both to better represent autonomous vehicle sensor setups. In addition, raw sensor predictions are less actionable than 3D occupancy predictions, but there are no works examining the effects of combining both multimodal sensor data and 3D occupancy prediction. In this work, we perform a set of experiments with a MUltimodal World Model with Geometric VOxel representations (MUVO) to evaluate different sensor fusion strategies to better understand the effects on sensor data prediction. We also analyze potential weaknesses of current sensor fusion approaches and examine the benefits of additionally predicting 3D occupancy.

arxiv情報

著者 Daniel Bogdoll,Yitian Yang,Tim Joseph,Melih Yazgan,J. Marius Zöllner
発行日 2025-04-24 13:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク