IoU-Enhanced Attention for End-to-End Task Specific Object Detection

要約

イメージ内に密にタイル張りされたアンカー ボックスやグリッド ポイントがない場合、スパース R-CNN は、一連のオブジェクト クエリと提案ボックスをカスケード トレーニング方式で更新することにより、有望な結果を達成します。
ただし、疎な性質と、クエリとその参加領域の間の 1 対 1 の関係により、自己注意に大きく依存します。これは通常、初期のトレーニング段階では不正確です。
さらに、密集したオブジェクトのシーンでは、オブジェクト クエリは多くの無関係なものと相互作用し、その一意性が低下し、パフォーマンスが損なわれます。
この論文では、異なるボックス間の IoU を、セルフアテンションでの値ルーティングの優先順位として使用することを提案しています。
元の注意行列は、提案ボックスの IoU から計算された同じサイズの行列を乗算し、無関係な機能を抑制することができるようにルーティング スキームを決定します。
さらに、分類と回帰の両方の特徴を正確に抽出するために、2 つの軽量プロジェクション ヘッドを追加して、オブジェクト クエリに基づいて動的チャネル マスクを提供し、それらを動的 conv からの出力と掛け合わせて、2 つの異なるタスクに適した結果を作成します。
MS-COCOやCrowdHumanなどのさまざまなデータセットで提案されたスキームを検証し、パフォーマンスが大幅に向上し、モデルの収束速度が向上することを示しています。

要約(オリジナル)

Without densely tiled anchor boxes or grid points in the image, sparse R-CNN achieves promising results through a set of object queries and proposal boxes updated in the cascaded training manner. However, due to the sparse nature and the one-to-one relation between the query and its attending region, it heavily depends on the self attention, which is usually inaccurate in the early training stage. Moreover, in a scene of dense objects, the object query interacts with many irrelevant ones, reducing its uniqueness and harming the performance. This paper proposes to use IoU between different boxes as a prior for the value routing in self attention. The original attention matrix multiplies the same size matrix computed from the IoU of proposal boxes, and they determine the routing scheme so that the irrelevant features can be suppressed. Furthermore, to accurately extract features for both classification and regression, we add two lightweight projection heads to provide the dynamic channel masks based on object query, and they multiply with the output from dynamic convs, making the results suitable for the two different tasks. We validate the proposed scheme on different datasets, including MS-COCO and CrowdHuman, showing that it significantly improves the performance and increases the model convergence speed.

arxiv情報

著者 Jing Zhao,Shengjian Wu,Li Sun,Qingli Li
発行日 2022-09-21 14:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク