A Dual-Cycled Cross-View Transformer Network for Unified Road Layout Estimation and 3D Object Detection in the Bird’s-Eye-View

要約

鳥瞰図 (BEV) 表現により、道路レイアウトの推定や 3D オブジェクトの検出など、自動運転のための複数のタスクの堅牢な学習が可能になります。
ただし、統合された道路レイアウト推定と 3D オブジェクト検出の最新の方法では、トレーニング データセットのクラスの不均衡とマルチクラス学習を処理して、必要なネットワークの総数を減らすことはめったにありません。
これらの制限を克服するために、トランスフォーマー アーキテクチャと CycleGAN 学習フレームワークに触発された道路レイアウト推定と 3D オブジェクト検出の統合モデルを提案します。
提案されたモデルは、焦点損失と提案された二重サイクル損失を利用して、データセットのクラスの不均衡によるパフォーマンスの低下を扱います。
さらに、さまざまな状況での道路レイアウト推定のためのマルチクラス学習の効果を研究するために、広範な学習シナリオを設定しました。
提案されたモデルと学習スキームの有効性を検証するために、徹底的なアブレーション研究と比較研究を実施します。
実験結果は、モデルの有効性を証明しています。
道路レイアウト推定と 3D オブジェクト検出タスクの両方で最先端のパフォーマンスを実現します。

要約(オリジナル)

The bird’s-eye-view (BEV) representation allows robust learning of multiple tasks for autonomous driving including road layout estimation and 3D object detection. However, contemporary methods for unified road layout estimation and 3D object detection rarely handle the class imbalance of the training dataset and multi-class learning to reduce the total number of networks required. To overcome these limitations, we propose a unified model for road layout estimation and 3D object detection inspired by the transformer architecture and the CycleGAN learning framework. The proposed model deals with the performance degradation due to the class imbalance of the dataset utilizing the focal loss and the proposed dual cycle loss. Moreover, we set up extensive learning scenarios to study the effect of multi-class learning for road layout estimation in various situations. To verify the effectiveness of the proposed model and the learning scheme, we conduct a thorough ablation study and a comparative study. The experiment results attest the effectiveness of our model; we achieve state-of-the-art performance in both the road layout estimation and 3D object detection tasks.

arxiv情報

著者 Curie Kim,Ue-Hwan Kim
発行日 2022-09-19 08:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク