Learned Multimodal Compression for Autonomous Driving

要約

自動運転センサーは膨大な量のデータを生成します。
この論文では、特に 3D オブジェクト検出を対象とした、自動運転のための学習されたマルチモーダル圧縮について検討します。
私たちはカメラと LiDAR モダリティに焦点を当て、いくつかのコーディング アプローチを検討します。
1 つのアプローチには、融合されたモダリティの共同コーディングが含まれますが、他のアプローチでは、最初に 1 つのモダリティをコーディングし、次に他のモダリティの条件付きコーディングが続きます。
nuScenes データセットでこれらのコーディング スキームのパフォーマンスを評価します。
私たちの実験結果は、融合モダリティの共同コーディングが代替手段と比較してより良い結果を生み出すことを示しています。

要約(オリジナル)

Autonomous driving sensors generate an enormous amount of data. In this paper, we explore learned multimodal compression for autonomous driving, specifically targeted at 3D object detection. We focus on camera and LiDAR modalities and explore several coding approaches. One approach involves joint coding of fused modalities, while others involve coding one modality first, followed by conditional coding of the other modality. We evaluate the performance of these coding schemes on the nuScenes dataset. Our experimental results indicate that joint coding of fused modalities yields better results compared to the alternatives.

arxiv情報

著者 Hadi Hadizadeh,Ivan V. Bajić
発行日 2024-08-15 15:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク