Depth- and Semantics-aware Multi-modal Domain Translation: Generating 3D Panoramic Color Images from LiDAR Point Clouds

要約

この研究では、LiDAR とカメラ センサー間のマルチモーダル設定におけるクロスドメインの画像間の変換のための、TITAN-Next と呼ばれる、深さとセマンティクスを認識した新しい条件付き生成モデルを紹介します。
提案されたモデルは、中間レベルの表現としてシーン セマンティクスを活用し、セマンティクス シーン セグメントのみに依存して生の LiDAR 点群を RGB-D カメラ画像に変換できます。
これはこの種の最初のフレームワークであり、フェールセーフ メカニズムの提供やターゲット画像ドメインで利用可能なデータの増強など、自動運転車での実用的な応用が可能であると私たちは主張しています。
提案されたモデルは、大規模で困難な Semantic-KITTI データセットで評価され、実験結果では、元の TITAN-Net や他の強力なベースラインよりも、IoU に関して 23.7$\%$ のマージンを大幅に上回っていることが示されています。

要約(オリジナル)

This work presents a new depth- and semantics-aware conditional generative model, named TITAN-Next, for cross-domain image-to-image translation in a multi-modal setup between LiDAR and camera sensors. The proposed model leverages scene semantics as a mid-level representation and is able to translate raw LiDAR point clouds to RGB-D camera images by solely relying on semantic scene segments. We claim that this is the first framework of its kind and it has practical applications in autonomous vehicles such as providing a fail-safe mechanism and augmenting available data in the target image domain. The proposed model is evaluated on the large-scale and challenging Semantic-KITTI dataset, and experimental findings show that it considerably outperforms the original TITAN-Net and other strong baselines by 23.7$\%$ margin in terms of IoU.

arxiv情報

著者 Tiago Cortinhal,Eren Erdal Aksoy
発行日 2023-11-16 09:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク