SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection

要約

現代の視覚認識システムは大きな進歩を遂げていますが、多くは少数の模範から学ぶという未解決の問題に苦労し続けています。
このペーパーでは、オブジェクトクラスが自然な長期分布に従う設定でオブジェクト検出のタスクに焦点を当てています。
ロングショットトレーニングインスタンスを強化するために、外部イメージネットラベルに長い尾を持つ検出リゾートの既存の方法。
ただし、大きなラベル付きデータベースへのこのような依存性は、実際のシナリオでのユーティリティが限られています。
私たちは、人間の注釈の負担なしに簡単に収集することができるオプションの非標識画像を活用するための多用途でスケーラブルなアプローチを提案します。
SIMLTDフレームワークは簡単で直感的であり、3つの簡単な手順で構成されています。(1)豊富なヘッドクラスの事前トレーニング。
(2)希少な尾のクラスで学習を転送する。
(3)ヘッドクラスとテールクラスの両方のサンプリングセットで微調整。
私たちのアプローチは、過去の研究で必要とされていたように、メタ学習や知識の蒸留の複雑さを追加することなく、頭から尾のモデル移転パラダイムの改善と見なすことができます。
追加の画像ラベルなしで、補足的なラベルのない画像を活用することにより、SIMLTDは、監視された設定と半監視設定の両方で、挑戦的なLVIS V1ベンチマークに関する新しいレコード結果を確立します。

要約(オリジナル)

While modern visual recognition systems have made significant advancements, many continue to struggle with the open problem of learning from few exemplars. This paper focuses on the task of object detection in the setting where object classes follow a natural long-tailed distribution. Existing methods for long-tailed detection resort to external ImageNet labels to augment the low-shot training instances. However, such dependency on a large labeled database has limited utility in practical scenarios. We propose a versatile and scalable approach to leverage optional unlabeled images, which are easy to collect without the burden of human annotations. Our SimLTD framework is straightforward and intuitive, and consists of three simple steps: (1) pre-training on abundant head classes; (2) transfer learning on scarce tail classes; and (3) fine-tuning on a sampled set of both head and tail classes. Our approach can be viewed as an improved head-to-tail model transfer paradigm without the added complexities of meta-learning or knowledge distillation, as was required in past research. By harnessing supplementary unlabeled images, without extra image labels, SimLTD establishes new record results on the challenging LVIS v1 benchmark across both supervised and semi-supervised settings.

arxiv情報

著者 Phi Vu Tran
発行日 2025-06-09 16:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク