要約
DEtection TRansformer (DETR) とそのバリアント (DETR) は、混雑した歩行者の検出に適用され、有望なパフォーマンスを達成しました。
ただし、さまざまな程度の混雑したシーンでは、DETR のクエリの数を手動で調整する必要があることがわかりました。そうしないと、さまざまな程度でパフォーマンスが低下します。
このペーパーでは、まず現在の 2 つのクエリ生成方法を分析し、適応クエリ生成方法を設計するための 4 つのガイドラインを要約します。
次に、問題を軽減するためにランクベースの適応クエリ生成 (RAQG) を提案します。
具体的には、エンコーダーによって生成された最も信頼度の低い陽性トレーニング サンプルのランクを予測できるランク予測ヘッドを設計します。
予測されたランクに基づいて、エンコーダによって生成された粗い検出結果を適応的に選択してクエリを生成できる適応的選択方法を設計します。
さらに、ランク予測ヘッドをより適切にトレーニングするために、ソフトグラディエント L1 損失を提案します。
Soft Gradient L1 Loss の勾配は連続的であるため、損失値とモデル パラメーターの更新値の間の関係を詳細に記述することができます。
私たちの方法はシンプルかつ効果的であり、理論的にはクエリ適応型にするために任意の DETR に組み込むことができます。
Crowdhuman データセットと Citypersons データセットの実験結果は、私たちの方法が DETR のクエリを適応的に生成し、競合する結果を達成できることを示しています。
特に、私たちの方法は、Crowdhuman データセットで最先端の 39.4% MR を達成します。
要約(オリジナル)
DEtection TRansformer (DETR) and its variants (DETRs) have been successfully applied to crowded pedestrian detection, which achieved promising performance. However, we find that, in different degrees of crowded scenes, the number of DETRs’ queries must be adjusted manually, otherwise, the performance would degrade to varying degrees. In this paper, we first analyze the two current query generation methods and summarize four guidelines for designing the adaptive query generation method. Then, we propose Rank-based Adaptive Query Generation (RAQG) to alleviate the problem. Specifically, we design a rank prediction head that can predict the rank of the lowest confidence positive training sample produced by the encoder. Based on the predicted rank, we design an adaptive selection method that can adaptively select coarse detection results produced by the encoder to generate queries. Moreover, to train the rank prediction head better, we propose Soft Gradient L1 Loss. The gradient of Soft Gradient L1 Loss is continuous, which can describe the relationship between the loss value and the updated value of model parameters granularly. Our method is simple and effective, which can be plugged into any DETRs to make it query-adaptive in theory. The experimental results on Crowdhuman dataset and Citypersons dataset show that our method can adaptively generate queries for DETRs and achieve competitive results. Especially, our method achieves state-of-the-art 39.4% MR on Crowdhuman dataset.
arxiv情報
著者 | Feng Gao,Jiaxu Leng,Ji Gan,Xinbo Gao |
発行日 | 2023-10-24 11:00:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google