RenderWorld: World Model with Self-Supervised 3D Label


ビジョンのみによるエンドツーエンドの自動運転は、LiDAR とビジョンの融合に比べてコスト効率が高いだけでなく、従来の方法よりも信頼性が高くなります。
経済的で堅牢な純粋に視覚的な自動運転システムを実現するために、ビジョン専用のエンドツーエンドの自動運転フレームワークである RenderWorld を提案します。これは、自己教師ありガウスベースの Img2Occ モジュールを使用して 3D 占有ラベルを生成し、ラベルを次のようにエンコードします。
AM-VAE は、予測と計画に世界モデルを使用します。
RenderWorld は、ガウス スプラッティングを採用して 3D シーンを表現し、2D 画像をレンダリングします。これにより、NeRF ベースの方法と比較してセグメンテーションの精度が大幅に向上し、GPU メモリの消費量が削減されます。
AM-VAE を適用して空気と非空気を別々にエンコードすることにより、RenderWorld はよりきめ細かいシーン要素表現を実現し、4D 占有予測と自己回帰ワールド モデルからのモーション プランニングの両方で最先端のパフォーマンスを実現します。


End-to-end autonomous driving with vision-only is not only more cost-effective compared to LiDAR-vision fusion but also more reliable than traditional methods. To achieve a economical and robust purely visual autonomous driving system, we propose RenderWorld, a vision-only end-to-end autonomous driving framework, which generates 3D occupancy labels using a self-supervised gaussian-based Img2Occ Module, then encodes the labels by AM-VAE, and uses world model for forecasting and planning. RenderWorld employs Gaussian Splatting to represent 3D scenes and render 2D images greatly improves segmentation accuracy and reduces GPU memory consumption compared with NeRF-based methods. By applying AM-VAE to encode air and non-air separately, RenderWorld achieves more fine-grained scene element representation, leading to state-of-the-art performance in both 4D occupancy forecasting and motion planning from autoregressive world model.


著者 Ziyang Yan,Wenzhen Dong,Yihua Shao,Yuhang Lu,Liu Haiyang,Jingwen Liu,Haozhe Wang,Zhe Wang,Yan Wang,Fabio Remondino,Yuexin Ma
発行日 2024-09-17 17:00:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク