Towards Realistic Scene Generation with LiDAR Diffusion Models

要約

拡散モデル (DM) はフォトリアリスティックな画像合成に優れていますが、LiDAR シーン生成への適応には大きなハードルがあります。
これは主に、ポイント空間で動作する DM が LiDAR シーンの曲線状のパターンと 3D ジオメトリを保持するのに苦労し、表現力の多くを消費するためです。
この論文では、幾何学的事前分布を学習パイプラインに組み込むことによって、LiDAR シーンのリアリズムを捉えるように調整された潜在空間から LiDAR リアルなシーンを生成する LiDAR 拡散モデル (LiDM) を提案します。
私たちの方法は、パターンのリアリズム、幾何学的リアリズム、オブジェクトのリアリズムという 3 つの主要な要望をターゲットとしています。
具体的には、実世界の LiDAR パターンをシミュレートするためのカーブごとの圧縮、シーンのジオメトリを学習するためのポイントごとの座標監視、および完全な 3D オブジェクト コンテキストのためのパッチごとのエンコーディングを導入します。
これら 3 つのコア設計により、私たちの方法は、ポイントベースの DM と比較して高い効率を維持しながら (最大 107$\times$ 高速)、64 ビーム シナリオでの無条件 LiDAR 生成で競争力のあるパフォーマンスと条件付き LiDAR 生成で最先端のパフォーマンスを実現します。

さらに、LiDAR シーンを潜在空間に圧縮することで、セマンティック マップ、カメラ ビュー、テキスト プロンプトなどのさまざまな条件で DM を制御できるようになります。

要約(オリジナル)

Diffusion models (DMs) excel in photo-realistic image synthesis, but their adaptation to LiDAR scene generation poses a substantial hurdle. This is primarily because DMs operating in the point space struggle to preserve the curve-like patterns and 3D geometry of LiDAR scenes, which consumes much of their representation power. In this paper, we propose LiDAR Diffusion Models (LiDMs) to generate LiDAR-realistic scenes from a latent space tailored to capture the realism of LiDAR scenes by incorporating geometric priors into the learning pipeline. Our method targets three major desiderata: pattern realism, geometry realism, and object realism. Specifically, we introduce curve-wise compression to simulate real-world LiDAR patterns, point-wise coordinate supervision to learn scene geometry, and patch-wise encoding for a full 3D object context. With these three core designs, our method achieves competitive performance on unconditional LiDAR generation in 64-beam scenario and state of the art on conditional LiDAR generation, while maintaining high efficiency compared to point-based DMs (up to 107$\times$ faster). Furthermore, by compressing LiDAR scenes into a latent space, we enable the controllability of DMs with various conditions such as semantic maps, camera views, and text prompts.

arxiv情報

著者 Haoxi Ran,Vitor Guizilini,Yue Wang
発行日 2024-04-18 19:22:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク