要約
さまざまなスケールの画像内の物体を検出する機能は、最新の物体検出器の設計において極めて重要な役割を果たしています。
トランスフォーマーを使用して手作りのコンポーネントを削除することはかなりの進歩を遂げていますが、ビジョン トランスフォーマー (ViT) のような単純なバックボーンを使用する場合でも、マルチスケール フィーチャ マップは依然として経験的な成功の重要な要素です。
この論文では、特徴ピラミッドへの依存は不要であり、スケールを意識したトランスベースの検出器により、バックボーンと検出ヘッドの両方が単一スケールの特徴で動作する単純な検出器「SimPLR」が可能になることを示します。
プレーンなアーキテクチャにより、SimPLR は ViT を使用した自己教師あり学習およびスケーリング アプローチを効果的に活用でき、マルチスケールの対応物と比較して優れたパフォーマンスを実現します。
実験を通じて、より大規模なバックボーンにスケーリングすると、SimPLR はエンドツーエンド検出器 (Mask2Former) やプレーン バックボーン検出器 (ViTDet) よりも一貫して高速でありながら、優れたパフォーマンスを示すことが実証されました。
コードが公開されます。
要約(オリジナル)
The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing handcrafted components using transformers, multi-scale feature maps remain a key factor for their empirical success, even with a plain backbone like the Vision Transformer (ViT). In this paper, we show that this reliance on feature pyramids is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR’ whose backbone and detection head both operate on single-scale features. The plain architecture allows SimPLR to effectively take advantages of self-supervised learning and scaling approaches with ViTs, yielding strong performance compared to multi-scale counterparts. We demonstrate through our experiments that when scaling to larger backbones, SimPLR indicates better performance than end-to-end detectors (Mask2Former) and plain-backbone detectors (ViTDet), while consistently being faster. The code will be released.
arxiv情報
| 著者 | Duy-Kien Nguyen,Martin R. Oswald,Cees G. M. Snoek |
| 発行日 | 2023-10-09 17:59:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google