要約
Detection Transformer (DETR)の亜種であるDINOの発表により、Detection Transformerはそのエンドツーエンド設計と拡張性のメリットにより、オブジェクト検出ベンチマークにおいて記録を更新している。しかし、DETRのエンドツーエンドアーキテクチャは、NMSやアンカー関連のコストを取り除くなど、より多くの利点が期待されているが、指向性オブジェクト検出への拡張は十分に研究されていない。本論文では、指向性オブジェクト検出のための強力なDINOベースのベースラインを初めて提案する。また、DETRの採用により、指向性オブジェクト検出のための非重複予測が保証されないことを発見し、これを軽減するための簡単なコストを提案する。さらに、冗長なノイズを持つクエリをフィルタリングするためのハンガリーマッチングと、Transformerデコーダ層間のマッチングの一貫性を保つためのクエリアライメントを用いた、新しいノイズ除去戦略を導入する。我々の提案するモデルは、従来の回転DETRや他の対応策を凌駕し、DOTA-v1.0/v1.5/v2.0やDIOR-Rベンチマークにおいて最先端の性能を達成した。
要約(オリジナル)
With the publication of DINO, a variant of the Detection Transformer (DETR), Detection Transformers are breaking the record in the object detection benchmark with the merits of their end-to-end design and scalability. However, the extension of DETR to oriented object detection has not been thoroughly studied although more benefits from its end-to-end architecture are expected such as removing NMS and anchor-related costs. In this paper, we propose a first strong DINO-based baseline for oriented object detection. We found that straightforward employment of DETRs for oriented object detection does not guarantee non-duplicate prediction, and propose a simple cost to mitigate this. Furthermore, we introduce a novel denoising strategy that uses Hungarian matching to filter redundant noised queries and query alignment to preserve matching consistency between Transformer decoder layers. Our proposed model outperforms previous rotated DETRs and other counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0, and DIOR-R benchmarks.
arxiv情報
著者 | Hakjin Lee,Minki Song,Jamyoung Koo,Junghoon Seo |
発行日 | 2023-05-12 16:42:54+00:00 |
arxivサイト | arxiv_id(pdf) |