CLCE: An Approach to Refining Cross-Entropy and Contrastive Learning for Optimized Learning Fusion

要約

最先端の事前トレーニング済み画像モデルは、主に 2 段階のアプローチを採用しています。つまり、大規模なデータセットでの最初の教師なし事前トレーニングと、それに続くクロスエントロピー損失 (CE) を使用したタスク固有の微調整です。
ただし、CE はモデルの一般化と安定性を損なう可能性があることが実証されています。
対照学習を採用した最近の研究では、埋め込みの品質を向上させ、より適切な決定境界を生成することで、これらの制限の一部に対処していますが、多くの場合、ハード ネガティブ マイニングの重要性が見落とされ、大規模なサンプル バッチを使用したリソース集約的で時間のかかるトレーニングに依存しています。
これらの問題に対処するために、ラベル認識対照学習と CE を統合する CLCE という新しいアプローチを導入します。
私たちのアプローチは、両方の損失関数の強みを維持するだけでなく、相乗的な方法でハード ネガティブ マイニングを活用してパフォーマンスを向上させます。
実験結果は、CLCE が 12 のベンチマーク全体でトップ 1 の精度で CE を大幅に上回り、少数ショット学習シナリオで最大 3.52%、BEiT-3 モデルを使用した転移学習設定で最大 3.41% のゲインを達成することを示しています。
重要なのは、私たちが提案する CLCE アプローチは、予算が限られたハードウェア環境での対照学習の適用をこれまで制約していた制限である、バッチあたり 4096 サンプルなどの大きなバッチ サイズに対する対照学習の依存性を効果的に軽減することです。

要約(オリジナル)

State-of-the-art pre-trained image models predominantly adopt a two-stage approach: initial unsupervised pre-training on large-scale datasets followed by task-specific fine-tuning using Cross-Entropy loss~(CE). However, it has been demonstrated that CE can compromise model generalization and stability. While recent works employing contrastive learning address some of these limitations by enhancing the quality of embeddings and producing better decision boundaries, they often overlook the importance of hard negative mining and rely on resource intensive and slow training using large sample batches. To counter these issues, we introduce a novel approach named CLCE, which integrates Label-Aware Contrastive Learning with CE. Our approach not only maintains the strengths of both loss functions but also leverages hard negative mining in a synergistic way to enhance performance. Experimental results demonstrate that CLCE significantly outperforms CE in Top-1 accuracy across twelve benchmarks, achieving gains of up to 3.52% in few-shot learning scenarios and 3.41% in transfer learning settings with the BEiT-3 model. Importantly, our proposed CLCE approach effectively mitigates the dependency of contrastive learning on large batch sizes such as 4096 samples per batch, a limitation that has previously constrained the application of contrastive learning in budget-limited hardware environments.

arxiv情報

著者 Zijun Long,George Killick,Lipeng Zhuang,Gerardo Aragon-Camarasa,Zaiqiao Meng,Richard Mccreadie
発行日 2024-02-22 13:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク