要約
Detection Transformer (DETR)の亜種であるDINOの発表により、Detection Transformerはそのエンドツーエンド設計と拡張性のメリットにより、オブジェクト検出ベンチマークにおいて記録を更新している。しかし、DETRのエンドツーエンドアーキテクチャは、NMSやアンカー関連のコストを取り除くなど、より多くの利点が期待されているが、指向性オブジェクト検出への拡張は十分に研究されていない。本論文では、指向性オブジェクト検出のための強力なDINOベースのベースラインを初めて提案する。また、DETRの採用により、指向性オブジェクト検出のための非重複予測が保証されないことを発見し、これを軽減するための簡単なコストを提案する。さらに、ハンガリーマッチングを用いて、冗長なノイズのあるクエリをフィルタリングし、$textit{query alignment}$を用いて、Transformerデコーダ層間のマッチングの整合性を保つ$textit{dynamic denoising}$戦略を導入する。本提案モデルは、従来の回転DETRや他の対応策を凌駕し、DOTA-v1.0/v1.5/v2.0やDIOR-Rベンチマークで最先端の性能を達成した。
要約(オリジナル)
With the publication of DINO, a variant of the Detection Transformer (DETR), Detection Transformers are breaking the record in the object detection benchmark with the merits of their end-to-end design and scalability. However, the extension of DETR to oriented object detection has not been thoroughly studied although more benefits from its end-to-end architecture are expected such as removing NMS and anchor-related costs. In this paper, we propose a first strong DINO-based baseline for oriented object detection. We found that straightforward employment of DETRs for oriented object detection does not guarantee non-duplicate prediction, and propose a simple cost to mitigate this. Furthermore, we introduce a $\textit{dynamic denoising}$ strategy that uses Hungarian matching to filter redundant noised queries and $\textit{query alignment}$ to preserve matching consistency between Transformer decoder layers. Our proposed model outperforms previous rotated DETRs and other counterparts, achieving state-of-the-art performance in DOTA-v1.0/v1.5/v2.0, and DIOR-R benchmarks.
arxiv情報
著者 | Hakjin Lee,Minki Song,Jamyoung Koo,Junghoon Seo |
発行日 | 2023-05-15 07:01:45+00:00 |
arxivサイト | arxiv_id(pdf) |