要約
多くの画像領域では、シーン内のオブジェクトの空間分布は、それらの意味関係によって支配される意味のあるパターンを示します。
ただし、最新の検出パイプラインのほとんどでは、検出提案は独立して処理され、オブジェクト間の基礎的な関係が無視されます。
この研究では、これらのオブジェクト間の関係をキャプチャして、検出されたオブジェクトの分類と回帰の結果を洗練するためのトランスフォーマー ベースのアプローチを導入します。
2 段階の検出器に基づいて、変換エンコーダーによって処理される関心領域 (RoI) 提案をトークン化します。
特定の空間的および幾何学的関係が注意の重みに組み込まれ、適応的に変調および規則化されます。
実験結果は、提案された手法が DOTA-v1.0、DOTA-v1.5、HRSC 2016 を含む 3 つのベンチマークで一貫したパフォーマンスの向上を達成し、特に DOTA-v1.5 と HRSC 2016 の両方で 1 位にランクされることを示しています。
ベースラインと比較して、DOTA-v1.0 では 1.59 mAP、DOTA-v1.5 では 4.88 mAP、HRSC 2016 では 2.1 mAP それぞれ増加しました。
要約(オリジナル)
In many image domains, the spatial distribution of objects in a scene exhibits meaningful patterns governed by their semantic relationships. In most modern detection pipelines, however, the detection proposals are processed independently, overlooking the underlying relationships between objects. In this work, we introduce a transformer-based approach to capture these inter-object relationships to refine classification and regression outcomes for detected objects. Building on two-stage detectors, we tokenize the region of interest (RoI) proposals to be processed by a transformer encoder. Specific spatial and geometric relations are incorporated into the attention weights and adaptively modulated and regularized. Experimental results demonstrate that the proposed method achieves consistent performance improvement on three benchmarks including DOTA-v1.0, DOTA-v1.5, and HRSC 2016, especially ranking first on both DOTA-v1.5 and HRSC 2016. Specifically, our new method has an increase of 1.59 mAP on DOTA-v1.0, 4.88 mAP on DOTA-v1.5, and 2.1 mAP on HRSC 2016, respectively, compared to the baselines.
arxiv情報
著者 | Botao Ren,Botian Xu,Yifan Pu,Jingyi Wang,Zhidong Deng |
発行日 | 2024-04-05 14:39:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google