要約
ディープラーニング(DL)ベースのストリートシーンのセマンティック理解は、自律運転(AD)の基礎となっています。
DLモデルのパフォーマンスは、ネットワークの深さに大きく依存しています。
具体的には、より深いDLアーキテクチャにより、セグメンテーションのパフォーマンスが向上します。
ただし、モデルがより深くなるにつれて、最終層での従来のワンポイント監督は、中間の特徴表現を最適化するのに苦労し、サブトレーニングの結果につながります。
これに対処するために、中間のマルチアクセス監督と正規化(IMACSR)戦略を提案します。
提案されたIMACSRは、2つの新しいコンポーネントを導入します。(i)中間監督の損失が複数のネットワーク深度での堅牢な特徴のアライメントを保証するため、潜在的な特徴とグラウンドトゥルースの間の相互情報。
(ii)隠された特徴に関する否定的なエントロピーの正則化は、自信過剰予測を思いとどまらせ、過剰適合を軽減します。
これらの中間用語は、元の最終層トレーニング損失に結合され、統一された最適化目標を形成し、ネットワーク階層全体で包括的な最適化を可能にします。
提案されたIMACSRは、深い広告アーキテクチャをトレーニングするための堅牢なフレームワークを提供し、実際の運転シナリオで認識システムのパフォーマンスを進めます。
さらに、提案されたIMACSRに対して理論的収束分析を実施します。
広告ベンチマークに関する広範な実験(すなわち、Cityscapes、Camvid、およびSynthiaSfデータセット)は、IMACSRが、ユニオン(MIOU)の平均交差点で最大9.19%までの従来の最終層シングルポイント監督方法よりも優れていることを示しています。
要約(オリジナル)
Deep Learning (DL)-based street scene semantic understanding has become a cornerstone of autonomous driving (AD). DL model performance heavily relies on network depth. Specifically, deeper DL architectures yield better segmentation performance. However, as models grow deeper, traditional one-point supervision at the final layer struggles to optimize intermediate feature representations, leading to subpar training outcomes. To address this, we propose an intermediate Multi-access Supervision and Regularization (iMacSR) strategy. The proposed iMacSR introduces two novel components: (I) mutual information between latent features and ground truth as intermediate supervision loss ensures robust feature alignment at multiple network depths; and (II) negative entropy regularization on hidden features discourages overconfident predictions and mitigates overfitting. These intermediate terms are combined into the original final-layer training loss to form a unified optimization objective, enabling comprehensive optimization across the network hierarchy. The proposed iMacSR provides a robust framework for training deep AD architectures, advancing the performance of perception systems in real-world driving scenarios. In addition, we conduct theoretical convergence analysis for the proposed iMacSR. Extensive experiments on AD benchmarks (i.e., Cityscapes, CamVid, and SynthiaSF datasets) demonstrate that iMacSR outperforms conventional final-layer single-point supervision method up to 9.19% in mean Intersection over Union (mIoU).
arxiv情報
著者 | Wei-Bin Kou,Guangxu Zhu,Yichen Jin,Shuai Wang,Ming Tang,Yik-Chung Wu |
発行日 | 2025-05-01 08:52:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google