要約
尾の長い物体検出は、クラス分布が非常に不均衡であるため、大きな課題に直面しています。
最近の手法は主に分類バイアスとその損失関数設計に焦点を当てており、回帰分岐の微妙な影響は無視されています。
この論文は、回帰バイアスが存在し、検出精度に悪影響を及ぼし、深刻な影響を与えることを示しています。
既存の方法は回帰バイアスを処理できませんが、この論文では、まれなクラスのクラス固有の回帰ヘッドがその主な原因であると仮説を立てています。
その結果、まれなカテゴリに対応するための 3 種類の実行可能なソリューションが提案されています。これには、クラスに依存しないブランチの追加、クラスタリング ヘッド、およびヘッドのマージが含まれます。
提案された方法は、特にまれなクラスや一般的なクラスにおいて、既存のロングテール検出方法に対して一貫した大幅な改善をもたらします。
提案された方法は、さまざまなバックボーンとアーキテクチャを持つ大語彙の LVIS データセットで最先端のパフォーマンスを実現します。
これは、より困難な評価指標、比較的バランスのとれたデータセット、およびマスク ブランチによく一般化されます。
これは、尾長物体検出における回帰バイアスの修正を明らかにし、調査する最初の試みです。
要約(オリジナル)
Long-tailed object detection faces great challenges because of its extremely imbalanced class distribution. Recent methods mainly focus on the classification bias and its loss function design, while ignoring the subtle influence of the regression branch. This paper shows that the regression bias exists and does adversely and seriously impact the detection accuracy. While existing methods fail to handle the regression bias, the class-specific regression head for rare classes is hypothesized to be the main cause of it in this paper. As a result, three kinds of viable solutions to cater for the rare categories are proposed, including adding a class-agnostic branch, clustering heads and merging heads. The proposed methods brings in consistent and significant improvements over existing long-tailed detection methods, especially in rare and common classes. The proposed method achieves state-of-the-art performance in the large vocabulary LVIS dataset with different backbones and architectures. It generalizes well to more difficult evaluation metrics, relatively balanced datasets, and the mask branch. This is the first attempt to reveal and explore rectifying of the regression bias in long-tailed object detection.
arxiv情報
著者 | Ke Zhu,Minghao Fu,Jie Shao,Tianyu Liu,Jianxin Wu |
発行日 | 2024-01-31 12:41:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google