Long-Tailed Object Detection Pre-training: Dynamic Rebalancing Contrastive Learning with Dual Reconstruction

要約

事前トレーニングは、物体の認識や検出など、さまざまな視覚タスクにおいて重要な役割を果たします。
一般的に使用される事前トレーニング方法は、通常、モデル パラメーターを初期化するために一様分布やガウス分布などのランダム化されたアプローチに依存しますが、特に検出タスクにおいて、裾の長い分布に直面すると不十分になることがよくあります。
これは主に、極端なデータの不均衡と単純性バイアスの問題によるものです。
この論文では、Dynamic Rebalancing Contrastive Learning with Dual Reconstruction (2DRCL) と呼ばれる、物体検出のための新しい事前トレーニング フレームワークを紹介します。
私たちの手法は、グローバルなコンテキスト セマンティクスと詳細なローカル パターンの両方をキャプチャすることで、事前トレーニングとオブジェクト検出を連携させる、ホリスティック-ローカル対照学習メカニズムに基づいて構築されています。
ロングテール データに固有の不均衡に対処するために、事前トレーニング プロセス全体を通じて過小評価されたインスタンスのサンプリングを調整し、テール クラスのより適切な表現を保証する動的な再バランス戦略を設計します。
さらに、デュアル再構成は、自己一貫性の原則に沿った再構成タスクを強制することで単純性バイアスに対処し、特に過小評価された末尾クラスに利益をもたらします。
COCO および LVIS v1.0 データセットの実験では、特に尾部クラスの mAP/AP スコアの改善において、私たちの方法の有効性が実証されています。

要約(オリジナル)

Pre-training plays a vital role in various vision tasks, such as object recognition and detection. Commonly used pre-training methods, which typically rely on randomized approaches like uniform or Gaussian distributions to initialize model parameters, often fall short when confronted with long-tailed distributions, especially in detection tasks. This is largely due to extreme data imbalance and the issue of simplicity bias. In this paper, we introduce a novel pre-training framework for object detection, called Dynamic Rebalancing Contrastive Learning with Dual Reconstruction (2DRCL). Our method builds on a Holistic-Local Contrastive Learning mechanism, which aligns pre-training with object detection by capturing both global contextual semantics and detailed local patterns. To tackle the imbalance inherent in long-tailed data, we design a dynamic rebalancing strategy that adjusts the sampling of underrepresented instances throughout the pre-training process, ensuring better representation of tail classes. Moreover, Dual Reconstruction addresses simplicity bias by enforcing a reconstruction task aligned with the self-consistency principle, specifically benefiting underrepresented tail classes. Experiments on COCO and LVIS v1.0 datasets demonstrate the effectiveness of our method, particularly in improving the mAP/AP scores for tail classes.

arxiv情報

著者 Chen-Long Duan,Yong Li,Xiu-Shen Wei,Lin Zhao
発行日 2024-11-14 13:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク