要約
この作業は、LiDAR とカメラ センサー間のマルチモーダル セットアップでクロスドメインの画像から画像への変換のために、TITAN-Next という名前の新しい深度およびセマンティクスを認識する条件付き生成モデルを提示します。
提案されたモデルは、中間レベルの表現としてシーン セマンティクスを活用し、セマンティック シーン セグメントのみに依存することで生の LiDAR ポイント クラウドを RGB-D カメラ画像に変換できます。
これはこの種の最初のフレームワークであり、フェイルセーフメカニズムの提供やターゲット画像ドメインで利用可能なデータの増強など、自動運転車での実用的なアプリケーションがあると主張しています。
提案されたモデルは、大規模で挑戦的な Semantic-KITTI データセットで評価され、実験結果は、IoU に関して 23.7$\%$ のマージンで、元の TITAN-Net および他の強力なベースラインよりもかなり優れていることを示しています。
要約(オリジナル)
This work presents a new depth- and semantics-aware conditional generative model, named TITAN-Next, for cross-domain image-to-image translation in a multi-modal setup between LiDAR and camera sensors. The proposed model leverages scene semantics as a mid-level representation and is able to translate raw LiDAR point clouds to RGB-D camera images by solely relying on semantic scene segments. We claim that this is the first framework of its kind and it has practical applications in autonomous vehicles such as providing a fail-safe mechanism and augmenting available data in the target image domain. The proposed model is evaluated on the large-scale and challenging Semantic-KITTI dataset, and experimental findings show that it considerably outperforms the original TITAN-Net and other strong baselines by 23.7$\%$ margin in terms of IoU.
arxiv情報
著者 | Tiago Cortinhal,Eren Erdal Aksoy |
発行日 | 2023-03-27 15:02:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google