CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects

要約

Tiny Object Detection(TOD)は、特徴のピラミッドネットワークの基本的な欠陥を明らかにします。高レベルの機能(P5-P6)は、標準のラベル割り当てプロトコルの下でゼロポジティブアンカーを頻繁に受け取り、損失計算から除外されているため、セマンティック表現を訓練しません。
これにより、二重の欠陥が生成されます。(1)伸びた高レベルの機能は、グラデーションの更新なしのセマンティックデッドエンドになり、(2)低レベルの機能には、堅牢な分類のための重要なセマンティックコンテキストがありません。
無駄な高レベルのセマンティクスを体系的に低レベルの特徴強化に変換するE-FPN-BSを提案します。
これらの問題に対処するために、マルチスケール機能の強化と適応的最適化を統合する新しいアーキテクチャであるE-FPN-BSを提案します。
まず、コンテキストエンハンスメントモジュール(CEM)は、デュアルブランチ処理を採用して、高レベルの機能を整列および圧縮して、効果的なグローバルローカル融合を行います。
第二に、フォアグラウンドバックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間的ゲーティングマスクを生成します。
オブジェクトスケール全体の勾配の不均衡に対処するために、さらにスケール認識勾配平衡を介して損失の寄与を自動的に変調する動的勾配バランスの損失(DCLOSS)をさらに提案します。
複数のベンチマークデータセットにわたる広範な実験は、私たちのアプローチの優れたパフォーマンスと一般化能力を示しています。

要約(オリジナル)

Tiny object detection (TOD) reveals a fundamental flaw in feature pyramid networks: high-level features (P5-P6) frequently receive zero positive anchors under standard label assignment protocols, leaving their semantic representations untrained due to exclusion from loss computation. This creates dual deficiencies: (1) Stranded high-level features become semantic dead-ends without gradient updates, while (2) low-level features lack essential semantic context for robust classification. We propose E-FPN-BS that systematically converts wasted high-level semantics into low-level feature enhancements. To address these issues, we propose E-FPN-BS, a novel architecture integrating multi-scale feature enhancement and adaptive optimization. First, our Context Enhancement Module(CEM) employs dual-branch processing to align and compress high-level features for effective global-local fusion. Second, the Foreground-Background Separation Module (FBSM) generates spatial gating masks that dynamically amplify discriminative regions. To address gradient imbalance across object scales, we further propose a Dynamic Gradient-Balanced Loss (DCLoss) that automatically modulates loss contributions via scale-aware gradient equilibrium. Extensive experiments across multiple benchmark datasets demonstrate the outstanding performance and generalization ability of our approach.

arxiv情報

著者 Tao Liu,Zhenchao Cui
発行日 2025-06-11 16:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク