Intelligent Anomaly Detection for Lane Rendering Using Transformer with Self-Supervised Pre-Training and Customized Fine-Tuning

要約

デジタル地図を使用したナビゲーション サービスの急増は、ドライバーに大きな利便性をもたらします。
それにもかかわらず、車線レンダリング マップ画像に異常が存在すると、潜在的な危険が生じることがあります。そのような異常は人間のドライバーに誤解を与え、結果的に危険な運転状態を引き起こす可能性があるからです。
この懸念に応え、異常を正確かつ効果的に検出するために、この論文では、レーン レンダリング画像の異常検出を分類問題に変換し、データ前処理、マスクされた画像による自己教師あり事前トレーニングからなる 4 フェーズのパイプラインを提案します。
モデリング (MiM) 手法、ラベル スムージングを使用したクロス エントロピー ベースの損失を使用したカスタマイズされた微調整、および最先端の深層学習技術、特に Transformer モデルに関連する技術を活用してそれに取り組むための後処理。
さまざまな実験により、提案されたパイプラインの有効性が検証されます。
結果は、提案されたパイプラインがレーン レンダリング画像の異常検出において優れたパフォーマンスを示し、特に、MiM を使用した自己教師あり事前トレーニングにより、総トレーニング時間を大幅に短縮しながら検出精度を大幅に向上できることを示しています。
たとえば、均一マスキングを備えた Swin Transformer を自己教師あり事前トレーニング (Swin-Trans-UM) として採用すると、事前トレーニングを行わない純粋な Swin Transformer と比較して、精度が 94.77% 向上し、曲線下面積 (AUC) スコアが 0.9743 向上しました。
-トレーニング (Swin-Trans) の精度は 94.01%、AUC は 0.9498 でした。
微調整エポックは、元の 280 から 41 に劇的に減少しました。結論として、提案されたパイプラインは、MiM およびその他の高度な深層学習技術を使用した自己教師あり事前トレーニングを組み込んでおり、精度を向上させるための堅牢なソリューションとして浮上します。
デジタルナビゲーションシステムにおけるレーンレンダリング画像の異常検出の効率。

要約(オリジナル)

The burgeoning navigation services using digital maps provide great convenience to drivers. Nevertheless, the presence of anomalies in lane rendering map images occasionally introduces potential hazards, as such anomalies can be misleading to human drivers and consequently contribute to unsafe driving conditions. In response to this concern and to accurately and effectively detect the anomalies, this paper transforms lane rendering image anomaly detection into a classification problem and proposes a four-phase pipeline consisting of data pre-processing, self-supervised pre-training with the masked image modeling (MiM) method, customized fine-tuning using cross-entropy based loss with label smoothing, and post-processing to tackle it leveraging state-of-the-art deep learning techniques, especially those involving Transformer models. Various experiments verify the effectiveness of the proposed pipeline. Results indicate that the proposed pipeline exhibits superior performance in lane rendering image anomaly detection, and notably, the self-supervised pre-training with MiM can greatly enhance the detection accuracy while significantly reducing the total training time. For instance, employing the Swin Transformer with Uniform Masking as self-supervised pretraining (Swin-Trans-UM) yielded a heightened accuracy at 94.77% and an improved Area Under The Curve (AUC) score of 0.9743 compared with the pure Swin Transformer without pre-training (Swin-Trans) with an accuracy of 94.01% and an AUC of 0.9498. The fine-tuning epochs were dramatically reduced to 41 from the original 280. In conclusion, the proposed pipeline, with its incorporation of self-supervised pre-training using MiM and other advanced deep learning techniques, emerges as a robust solution for enhancing the accuracy and efficiency of lane rendering image anomaly detection in digital navigation systems.

arxiv情報

著者 Yongqi Dong,Xingmin Lu,Ruohan Li,Wei Song,Bart van Arem,Haneen Farah
発行日 2024-05-29 15:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, stat.ML パーマリンク