Multi Self-supervised Pre-fine-tuned Transformer Fusion for Better Intelligent Transportation Detection

要約

インテリジェント交通システムは、高度な情報技術を組み合わせて、現代の交通機関の監視、検出、早期警告などのインテリジェントなサービスを提供します。
インテリジェント交通検出は、物体検出方法を通じてタスクのターゲットを識別することにより、多くのインテリジェント交通サービスの基礎となります。
しかし、インテリジェント交通における既存の検出方法は 2 つの側面によって制限されています。
まず、大規模なデータセットで事前学習されたモデルの知識と、ターゲットのタスクに必要な知識との間には違いがあります。
第 2 に、ほとんどの検出モデルは単一ソース学習のパターンに従っており、学習能力が制限されています。
これらの問題に対処するために、教師なし事前微調整ドメイン知識学習とマルチモデル融合ターゲット タスク学習の 2 つのステップで構成される、マルチ自己教師あり事前微調整変圧器融合 (MSPTF) ネットワークを提案します。
最初のステップでは、自己教師あり学習手法をトランスフォーマー モデルの事前微調整に導入しました。これにより、データ コストが削減され、事前トレーニングされたモデルとターゲット タスク間の知識ギャップが軽減されます。
2 番目のステップでは、さまざまなモデル アーキテクチャとさまざまな事前微調整タスク間の機能情報の違いを考慮し、チャネルの意味的一貫性を考慮してさまざまなトランスフォーマー モデルの機能を組み合わせるマルチモデル セマンティック コンシステンシー クロスアテンション フュージョン (MSCCF) ネットワークを提案します。
特徴ベクトルの意味的一貫性。これにより、検出タスクのためのより完全かつ適切な融合特徴が得られます。
提案手法を車両認識データセットと道路疾病検出データセットで実験したところ、ベースラインと比較して1.1%、5.5%、4.2%、sotaと比較して0.7%、1.8%、1.7%の改善を達成し、手法の有効性を証明しました。

要約(オリジナル)

Intelligent transportation system combines advanced information technology to provide intelligent services such as monitoring, detection, and early warning for modern transportation. Intelligent transportation detection is the cornerstone of many intelligent traffic services by identifying task targets through object detection methods. However existing detection methods in intelligent transportation are limited by two aspects. First, there is a difference between the model knowledge pre-trained on large-scale datasets and the knowledge required for target task. Second, most detection models follow the pattern of single-source learning, which limits the learning ability. To address these problems, we propose a Multi Self-supervised Pre-fine-tuned Transformer Fusion (MSPTF) network, consisting of two steps: unsupervised pre-fine-tune domain knowledge learning and multi-model fusion target task learning. In the first step, we introduced self-supervised learning methods into transformer model pre-fine-tune which could reduce data costs and alleviate the knowledge gap between pre-trained model and target task. In the second step, we take feature information differences between different model architectures and different pre-fine-tune tasks into account and propose Multi-model Semantic Consistency Cross-attention Fusion (MSCCF) network to combine different transformer model features by considering channel semantic consistency and feature vector semantic consistency, which obtain more complete and proper fusion features for detection task. We experimented the proposed method on vehicle recognition dataset and road disease detection dataset and achieved 1.1%, 5.5%, 4.2% improvement compared with baseline and 0.7%, 1.8%, 1.7% compared with sota, which proved the effectiveness of our method.

arxiv情報

著者 Juwu Zheng,Jiangtao Ren
発行日 2023-10-17 14:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク