Fractal Calibration for long-tailed object detection

要約

実際のデータセットは、不均衡な分布に続きます。これは、まれなカテゴリオブジェクトの検出に大きな課題をもたらします。
最近の研究は、データセットのクラス周波数を利用する再重視と再サンプリング方法を開発することにより、この問題に取り組んでいます。
ただし、これらの手法は、頻度統計のみに焦点を当て、画像空間内のクラスの分布を無視し、重要な情報が欠落しています。
それらとは対照的に、フラクタルキャリブレーション(FRACAL)を提案します:ロングテールオブジェクト検出のための新しいキャリブレーション方法。
Fracalは、フラクタル寸法を利用して、画像スペースに均一にクラスがどの程度分布しているかを推定するロジット調整方法を考案します。
推論中に、フラクタルの次元を使用して、頻繁なカテゴリと希少カテゴリの間で、均一に間隔を空けているクラスとスパース間隔のクラスの間で、2つの軸でバランスを達成する均一に間隔を空けたクラス予測の確率を反比例させます。
Fracalは後処理方法であり、トレーニングを必要としません。また、1段階のシグモイド検出器や2段階のインスタンスセグメンテーションモデルなどの多くの既製モデルと組み合わせることもできます。
Fracalは、まれなクラスのパフォーマンスを最大8.6%上昇させ、LVISデータセットで以前のすべてのメソッドを上回り、CoCo、V3Det、OpenImagesなどの他のデータセットに良好な一般化を示しています。
https://github.com/kostas1515/fracalでコードを提供します。

要約(オリジナル)

Real-world datasets follow an imbalanced distribution, which poses significant challenges in rare-category object detection. Recent studies tackle this problem by developing re-weighting and re-sampling methods, that utilise the class frequencies of the dataset. However, these techniques focus solely on the frequency statistics and ignore the distribution of the classes in image space, missing important information. In contrast to them, we propose FRActal CALibration (FRACAL): a novel post-calibration method for long-tailed object detection. FRACAL devises a logit adjustment method that utilises the fractal dimension to estimate how uniformly classes are distributed in image space. During inference, it uses the fractal dimension to inversely downweight the probabilities of uniformly spaced class predictions achieving balance in two axes: between frequent and rare categories, and between uniformly spaced and sparsely spaced classes. FRACAL is a post-processing method and it does not require any training, also it can be combined with many off-the-shelf models such as one-stage sigmoid detectors and two-stage instance segmentation models. FRACAL boosts the rare class performance by up to 8.6% and surpasses all previous methods on LVIS dataset, while showing good generalisation to other datasets such as COCO, V3Det and OpenImages. We provide the code at https://github.com/kostas1515/FRACAL.

arxiv情報

著者 Konstantinos Panagiotis Alexandridis,Ismail Elezi,Jiankang Deng,Anh Nguyen,Shan Luo
発行日 2025-03-05 17:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク