The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning

要約

LiDAR は自動運転において重要なセンサーであり、一般的にカメラと併用されます。
このカメラと LiDAR のセットアップと画像表現学習の最近の進歩を活用することにより、以前の研究で画像から LiDAR への蒸留の有望な可能性が示されています。
これらの従来技術は、事前にトレーニングされた 2D 画像表現を 3D モデルに効果的に蒸留するために、独自の損失の設計に焦点を当てています。
しかし、デザインの他の部分は驚くほど未開発です。
私たちは、LiDAR 座標系、既存の入力インターフェイスに従った量子化、データ利用などの基本的な設計要素が、従来の研究で見落とされていた損失関数の開発よりも重要であることを発見しました。
この研究では、これらの設計に対する簡単な修正が、ダウンストリーム タスクのパフォーマンスにおいて、nuScenes データセットの 3D セマンティック セグメンテーションで 16%、KITTI データセットでの 3D オブジェクト検出で 13% 既存の手法よりも優れていることを示します。
私たちは、空間軸と時間軸に沿って見落とされているデザインの選択に焦点を当てます。
空間的には、これまでの研究では、一般的に導入されているスパース畳み込み層入力インターフェイスで生じる副作用を考慮せずに円筒座標とボクセル サイズが使用されており、3D モデルで空間量子化エラーが発生していました。
一時的には、既存の作業では、同期されていないデータを破棄し、センサー間で一時的に同期されるデータのごく一部のみに使用を制限することで、煩雑なデータ キュレーションを回避しています。
私たちはこれらの影響を分析し、見落とされているそれぞれの側面に対する簡単な解決策を提案します。

要約(オリジナル)

LiDAR is a crucial sensor in autonomous driving, commonly used alongside cameras. By exploiting this camera-LiDAR setup and recent advances in image representation learning, prior studies have shown the promising potential of image-to-LiDAR distillation. These prior arts focus on the designs of their own losses to effectively distill the pre-trained 2D image representations into a 3D model. However, the other parts of the designs have been surprisingly unexplored. We find that fundamental design elements, e.g., the LiDAR coordinate system, quantization according to the existing input interface, and data utilization, are more critical than developing loss functions, which have been overlooked in prior works. In this work, we show that simple fixes to these designs notably outperform existing methods by 16% in 3D semantic segmentation on the nuScenes dataset and 13% in 3D object detection on the KITTI dataset in downstream task performance. We focus on overlooked design choices along the spatial and temporal axes. Spatially, prior work has used cylindrical coordinate and voxel sizes without considering their side effects yielded with a commonly deployed sparse convolution layer input interface, leading to spatial quantization errors in 3D models. Temporally, existing work has avoided cumbersome data curation by discarding unsynced data, limiting the use to only the small portion of data that is temporally synced across sensors. We analyze these effects and propose simple solutions for each overlooked aspect.

arxiv情報

著者 Wonjun Jo,Kwon Byung-Ki,Kim Ji-Yeon,Hawook Jeong,Kyungdon Joo,Tae-Hyun Oh
発行日 2025-01-16 11:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク