RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection

要約

方向のあるオブジェクトの検出は、複数の方向、さまざまなスケール、および密な分布を持つオブジェクト インスタンスが存在するため、困難なタスクになります。
最近、エンドツーエンドの検出器は、アテンション メカニズムを採用し、連続するデコーダ層を通じて固定数のクエリを改良することにより、大幅な進歩を遂げています。
しかし、既存のエンドツーエンド指向の物体検出器は依然として 2 つの主要な課題に直面しています。1) 位置クエリとキー間の不整合により、分類と位置特定の間に不一致が生じます。
2) 類似のクエリが多数存在するため、1 対 1 のラベル割り当てと最適化が複雑になります。
これらの制限に対処するために、私たちは Rotated Query Transformer と呼ばれるエンドツーエンド指向の検出器を提案します。これは、Rotated RoI Attendant (RRoI Attendance) と Selective Distinct Queries (SDQ) という 2 つの主要なテクノロジーを統合します。
まず、RRoI アテンションは、クロス アテンションを通じて、指向性のある関心領域からの位置クエリとキーを調整します。
第 2 に、SDQ は中間デコーダ層からクエリを収集し、類似したクエリをフィルタリングして除外して、個別のクエリを生成します。これにより、1 対 1 のラベル割り当ての最適化が容易になります。
最後に、4 つのリモート センシング データセットと 1 つのシーン テキスト データセットに対して行われた広範な実験により、私たちの方法の有効性が実証されました。
その一般化機能をさらに検証するために、水平方向の物体検出へのアプローチも拡張します。コードは \url{https://github.com/wokaikaixinxin/RQFormer} で入手できます。

要約(オリジナル)

Oriented object detection presents a challenging task due to the presence of object instances with multiple orientations, varying scales, and dense distributions. Recently, end-to-end detectors have made significant strides by employing attention mechanisms and refining a fixed number of queries through consecutive decoder layers. However, existing end-to-end oriented object detectors still face two primary challenges: 1) misalignment between positional queries and keys, leading to inconsistency between classification and localization; and 2) the presence of a large number of similar queries, which complicates one-to-one label assignments and optimization. To address these limitations, we propose an end-to-end oriented detector called the Rotated Query Transformer, which integrates two key technologies: Rotated RoI Attention (RRoI Attention) and Selective Distinct Queries (SDQ). First, RRoI Attention aligns positional queries and keys from oriented regions of interest through cross-attention. Second, SDQ collects queries from intermediate decoder layers and filters out similar ones to generate distinct queries, thereby facilitating the optimization of one-to-one label assignments. Finally, extensive experiments conducted on four remote sensing datasets and one scene text dataset demonstrate the effectiveness of our method. To further validate its generalization capability, we also extend our approach to horizontal object detection The code is available at \url{https://github.com/wokaikaixinxin/RQFormer}.

arxiv情報

著者 Jiaqi Zhao,Zeyu Ding,Yong Zhou,Hancheng Zhu,Wenliang Du,Rui Yao,Abdulmotaleb El Saddik
発行日 2024-12-16 14:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク