要約
現在のアンカーベースの検出器の中で、正のアンカー ボックスは、最も重なっているオブジェクトに直感的に割り当てられます。
各アンカーに割り当てられたラベルは、ボックス回帰とカテゴリ予測の方向を含む、対応する予測ボックスの最適化方向を直接決定します。
ただし、混雑したオブジェクト検出の実践では、結果は、複数のオブジェクトが重なっている場合、正のアンカーが常に最も重なっているオブジェクトに向かって回帰するとは限らないことを示しています。
私たちはそれをアンカードリフトと呼んでいます。
アンカー ドリフトは、アンカーとオブジェクト間のオーバーラップの程度によって決定されるアンカーとオブジェクトの一致関係が常に最適であるとは限らないことを反映しています。
固定されたマッチング関係と過去のトレーニング プロセスで学習した経験との間の競合は、あいまいな予測を引き起こし、偽陽性率を上昇させる可能性があります。
この論文では、単純だが効率的な適応型 2 段階アンカー割り当て (TSAA) 法が提案されています。
固定アンカーではなく最終的な予測ボックスを使用してオブジェクトとのオーバーラップ度を計算し、各アンカーに対して回帰するオブジェクトを決定します。
予測ボックスの参加により、アンカー オブジェクトの割り当てメカニズムが適応型になります。
TSAA の有効性を評価するために、CrowdHuman および COCO 上の 3 つの古典的な検出器 RetinaNet、Faster-RCNN、および YOLOv3 で広範な実験が行われます。
結果は、追加の計算コストやネットワーク構造の変更なしで、TSAA が検出器のパフォーマンスを大幅に改善できることを示しています。
要約(オリジナル)
Among current anchor-based detectors, a positive anchor box will be intuitively assigned to the object that overlaps it the most. The assigned label to each anchor will directly determine the optimization direction of the corresponding prediction box, including the direction of box regression and category prediction. In our practice of crowded object detection, however, the results show that a positive anchor does not always regress toward the object that overlaps it the most when multiple objects overlap. We name it anchor drift. The anchor drift reflects that the anchor-object matching relation, which is determined by the degree of overlap between anchors and objects, is not always optimal. Conflicts between the fixed matching relation and learned experience in the past training process may cause ambiguous predictions and thus raise the false-positive rate. In this paper, a simple but efficient adaptive two-stage anchor assignment (TSAA) method is proposed. It utilizes the final prediction boxes rather than the fixed anchors to calculate the overlap degree with objects to determine which object to regress for each anchor. The participation of the prediction box makes the anchor-object assignment mechanism adaptive. Extensive experiments are conducted on three classic detectors RetinaNet, Faster-RCNN and YOLOv3 on CrowdHuman and COCO to evaluate the effectiveness of TSAA. The results show that TSAA can significantly improve the detectors’ performance without additional computational costs or network structure changes.
arxiv情報
著者 | Li Xiang,He Miao,Luo Haibo,Yang Huiyuan,Xiao Jiajie |
発行日 | 2022-11-11 12:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google