CNN-transformer mixed model for object detection

要約

コンピューター ビジョンの 3 つの主要なタスクの 1 つであるオブジェクト検出は、さまざまなアプリケーションで使用されています。
主なプロセスは、ディープ ニューラル ネットワークを使用して画像の特徴を抽出し、その特徴を使用してオブジェクトのクラスと位置を識別することです。
したがって、オブジェクト検出タスクの精度を向上させるための主な方向性は、ニューラル ネットワークを改善して特徴をより適切に抽出することです。
この論文では、トランスフォーマー[1]を使用した畳み込みモジュールを提案します。これは、CNN[2]によって抽出された詳細な特徴と、トランスフォーマーによって抽出されたグローバルな特徴を融合することにより、モデルの認識精度を向上させ、計算量を大幅に削減することを目的としています。
機能 mAP を収縮させることにより、Transformer モジュールの労力を軽減します。
主な実行ステップは、特徴マップのサイズを縮小するための畳み込みダウンサンプリング、自己注意の計算とアップサンプリング、最後に初期入力との連結です。
実験部分では、YOLOv5n[3]の最後までブロックをスプライシングし、coco データセットで 300 エポックのトレーニングを行った後、mAP は以前の YOLOv5n と比較して 1.7% 改善され、mAP 曲線は飽和現象を示さなかったので、
まだ改善の余地があります。
Pascal VOC データセットで 100 ラウンドのトレーニングを行った後、結果の精度は 81% に達しました。これは、resnet101[5] をバックボーンとして使用したより高速な RCNN[4] よりも 4.6 優れていますが、パラメーターの数は 1 未満です。
それの20分の1。

要約(オリジナル)

Object detection, one of the three main tasks of computer vision, has been used in various applications. The main process is to use deep neural networks to extract the features of an image and then use the features to identify the class and location of an object. Therefore, the main direction to improve the accuracy of object detection tasks is to improve the neural network to extract features better. In this paper, I propose a convolutional module with a transformer[1], which aims to improve the recognition accuracy of the model by fusing the detailed features extracted by CNN[2] with the global features extracted by a transformer and significantly reduce the computational effort of the transformer module by deflating the feature mAP. The main execution steps are convolutional downsampling to reduce the feature map size, then self-attention calculation and upsampling, and finally concatenation with the initial input. In the experimental part, after splicing the block to the end of YOLOv5n[3] and training 300 epochs on the coco dataset, the mAP improved by 1.7% compared with the previous YOLOv5n, and the mAP curve did not show any saturation phenomenon, so there is still potential for improvement. After 100 rounds of training on the Pascal VOC dataset, the accuracy of the results reached 81%, which is 4.6 better than the faster RCNN[4] using resnet101[5] as the backbone, but the number of parameters is less than one-twentieth of it.

arxiv情報

著者 Wenshuo Li
発行日 2022-12-13 16:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク