LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection

要約

この論文では、リアルタイムの物体検出において YOLO よりも優れた性能を発揮する、軽量の検出トランス LW-DETR を紹介します。
このアーキテクチャは、ViT エンコーダー、プロジェクター、および浅い DETR デコーダーの単純なスタックです。
私たちのアプローチは、損失と事前トレーニングの改善、インターリーブ ウィンドウや ViT エンコーダの複雑さを軽減するためのグローバルな注目など、トレーニングに効果的な技術など、最近の高度な技術を活用しています。
マルチレベルの特徴マップと ViT エンコーダ内の中間および最終の特徴マップを集約して、より豊富な特徴マップを形成することで ViT エンコーダを改善し、インターリーブ アテンション計算の効率を向上させるためにウィンドウ メジャーの特徴マップ構成を導入します。
実験結果は、提案されたアプローチが、COCO および他のベンチマーク データセット上で、既存のリアルタイム検出器 (YOLO やその亜種など) よりも優れていることを示しています。
コードとモデルは (https://github.com/Atten4Vis/LW-DETR) で入手できます。

要約(オリジナル)

In this paper, we present a light-weight detection transformer, LW-DETR, which outperforms YOLOs for real-time object detection. The architecture is a simple stack of a ViT encoder, a projector, and a shallow DETR decoder. Our approach leverages recent advanced techniques, such as training-effective techniques, e.g., improved loss and pretraining, and interleaved window and global attentions for reducing the ViT encoder complexity. We improve the ViT encoder by aggregating multi-level feature maps, and the intermediate and final feature maps in the ViT encoder, forming richer feature maps, and introduce window-major feature map organization for improving the efficiency of interleaved attention computation. Experimental results demonstrate that the proposed approach is superior over existing real-time detectors, e.g., YOLO and its variants, on COCO and other benchmark datasets. Code and models are available at (https://github.com/Atten4Vis/LW-DETR).

arxiv情報

著者 Qiang Chen,Xiangbo Su,Xinyu Zhang,Jian Wang,Jiahui Chen,Yunpeng Shen,Chuchu Han,Ziliang Chen,Weixiang Xu,Fanrong Li,Shan Zhang,Kun Yao,Errui Ding,Gang Zhang,Jingdong Wang
発行日 2024-06-05 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク