要約
さまざまなスケールの画像内の物体を検出する機能は、最新の物体検出器の設計において極めて重要な役割を果たしています。
手作りのコンポーネントを削除し、トランスフォーマーを使用してアーキテクチャを簡素化することはかなりの進歩を遂げましたが、マルチスケールの機能マップやピラミッド設計は依然として経験的な成功の重要な要素です。
この論文では、特徴ピラミッドまたは階層バックボーンへの依存は不要であり、スケールを意識したトランスフォーマーベースの検出器により、バックボーンと検出ヘッドの両方が非階層で動作する単純な検出器「SimPLR」が可能になることを示します。
シングルスケールの特徴。
私たちは実験を通じて、スケールを意識した SimPLR は明白でシンプルでありながら、マルチスケール ビジョン トランスフォーマーの代替品と競合できることを発見しました。
マルチスケールおよびシングルスケールの最先端のモデルと比較して、私たちのモデルは、より大容量の (自己教師あり) モデルとより多くの事前トレーニング データを使用してはるかに優れたスケーリングを実現し、一貫して優れた精度とより高速な実行時間をレポートできます。
オブジェクト検出、インスタンス セグメンテーション、パノプティック セグメンテーション用。
コードが公開されます。
要約(オリジナル)
The ability to detect objects in images at varying scales has played a pivotal role in the design of modern object detectors. Despite considerable progress in removing hand-crafted components and simplifying the architecture with transformers, multi-scale feature maps and/or pyramid design remain a key factor for their empirical success. In this paper, we show that this reliance on either feature pyramids or an hierarchical backbone is unnecessary and a transformer-based detector with scale-aware attention enables the plain detector `SimPLR’ whose backbone and detection head are both non-hierarchical and operate on single-scale features. We find through our experiments that SimPLR with scale-aware attention is plain and simple, yet competitive with multi-scale vision transformer alternatives. Compared to the multi-scale and single-scale state-of-the-art, our model scales much better with bigger capacity (self-supervised) models and more pre-training data, allowing us to report a consistently better accuracy and faster runtime for object detection, instance segmentation as well as panoptic segmentation. Code will be released.
arxiv情報
著者 | Duy-Kien Nguyen,Martin R. Oswald,Cees G. M. Snoek |
発行日 | 2024-03-15 16:47:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google