要約
学習ベースのストリートシーン自律運転(AD)におけるセマンティック理解は最近大幅に進歩していますが、ADモデルのパフォーマンスは、注釈付きトレーニングデータの量と品質に大きく依存しています。
ただし、従来のマニュアルラベルには、トレーニングの堅牢なモデルをトレーニングするために膨大な量のデータを注入するための高コストが含まれます。
この手動ラベルのコストを緩和するために、ラベルのモデル(LAMとして示される)を提案し、解釈可能で高忠実で、迅速なデータアノテーターとして機能します。
具体的には、まず、潜在的な特徴を抽出するために、前処理された視覚変圧器(VIT)を組み込みます。
VITに加えて、セマンティッククラスアダプター(SCA)と最適化指向の展開アルゴリズム(OptOU)を提案します。
SCAは、後続の自動注釈の基礎を統合するために、VIT抽出機能を融合することが提案されています。
OptOUは複数のカスケード層で構成されており、各レイヤーには、学習ベースのブラックボックスの性質ではなく解釈可能であると機能するOptouは、可能な限り密接に出力を整列させるための最適化定式化を含んでいます。
さらに、トレーニングSCAとOptOUは、学習可能なパラメーターが少ないため、1つの事前に注文されたRGBシード画像のみが必要です。
広範な実験は、提案されたLAMが複数の実際のデータセット(つまり、CAMVID、Cityscapes、Apolloscapes)およびカーラシミュレーションデータセットの高忠実度の注釈(MIOUでほぼ100%)を生成できることを明確に示しています。
要約(オリジナル)
Learning-based street scene semantic understanding in autonomous driving (AD) has advanced significantly recently, but the performance of the AD model is heavily dependent on the quantity and quality of the annotated training data. However, traditional manual labeling involves high cost to annotate the vast amount of required data for training robust model. To mitigate this cost of manual labeling, we propose a Label Anything Model (denoted as LAM), serving as an interpretable, high-fidelity, and prompt-free data annotator. Specifically, we firstly incorporate a pretrained Vision Transformer (ViT) to extract the latent features. On top of ViT, we propose a semantic class adapter (SCA) and an optimization-oriented unrolling algorithm (OptOU), both with a quite small number of trainable parameters. SCA is proposed to fuse ViT-extracted features to consolidate the basis of the subsequent automatic annotation. OptOU consists of multiple cascading layers and each layer contains an optimization formulation to align its output with the ground truth as closely as possible, though which OptOU acts as being interpretable rather than learning-based blackbox nature. In addition, training SCA and OptOU requires only a single pre-annotated RGB seed image, owing to their small volume of learnable parameters. Extensive experiments clearly demonstrate that the proposed LAM can generate high-fidelity annotations (almost 100% in mIoU) for multiple real-world datasets (i.e., Camvid, Cityscapes, and Apolloscapes) and CARLA simulation dataset.
arxiv情報
著者 | Wei-Bin Kou,Guangxu Zhu,Rongguang Ye,Shuai Wang,Ming Tang,Yik-Chung Wu |
発行日 | 2025-02-05 08:14:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google