Fractal Calibration for long-tailed object detection

要約

現実世界のデータセットは不均衡な分布に従っており、これが希少カテゴリのオブジェクトの検出に重大な課題をもたらします。
最近の研究では、データセットのクラス頻度を利用する再重み付けおよび再サンプリング方法を開発することで、この問題に取り組んでいます。
ただし、これらの手法は頻度統計のみに焦点を当てており、画像空間内のクラスの分布を無視しているため、重要な情報が欠落しています。
それらとは対照的に、我々は、尾長物体検出のための新しいポストキャリブレーション方法である FRActal CALibration (FRACAL) を提案します。
FRACAL は、フラクタル次元を利用して画像空間内でクラスがどの程度均一に分布しているかを推定するロジット調整方法を考案します。
推論中に、フラクタル次元を使用して、頻度の高いカテゴリーと稀なカテゴリーの間、および等間隔のクラスとまばらな間隔のクラスの間の 2 つの軸でバランスがとれた等間隔のクラス予測の確率を逆にダウンウェイトします。
FRACAL は後処理手法であり、トレーニングを必要としません。また、1 段階のシグモイド検出器や 2 段階のインスタンス セグメンテーション モデルなど、多くの既製のモデルと組み合わせることができます。
FRACAL は、レア クラスのパフォーマンスを最大 8.6% 向上させ、LVIS データセットに対する以前のすべてのメソッドを上回り、同時に COCO、V3Det、OpenImages などの他のデータセットに対して優れた一般化を示します。
コードが公開されます。

要約(オリジナル)

Real-world datasets follow an imbalanced distribution, which poses significant challenges in rare-category object detection. Recent studies tackle this problem by developing re-weighting and re-sampling methods, that utilise the class frequencies of the dataset. However, these techniques focus solely on the frequency statistics and ignore the distribution of the classes in image space, missing important information. In contrast to them, we propose FRActal CALibration (FRACAL): a novel post-calibration method for long-tailed object detection. FRACAL devises a logit adjustment method that utilises the fractal dimension to estimate how uniformly classes are distributed in image space. During inference, it uses the fractal dimension to inversely downweight the probabilities of uniformly spaced class predictions achieving balance in two axes: between frequent and rare categories, and between uniformly spaced and sparsely spaced classes. FRACAL is a post-processing method and it does not require any training, also it can be combined with many off-the-shelf models such as one-stage sigmoid detectors and two-stage instance segmentation models. FRACAL boosts the rare class performance by up to 8.6% and surpasses all previous methods on LVIS dataset, while showing good generalisation to other datasets such as COCO, V3Det and OpenImages. The code will be released.

arxiv情報

著者 Konstantinos Panagiotis Alexandridis,Ismail Elezi,Jiankang Deng,Anh Nguyen,Shan Luo
発行日 2024-10-15 16:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク