SynCo: Synthetic Hard Negatives in Contrastive Learning for Better Unsupervised Visual Representations

要約

対照学習は、自己教師あり視覚表現学習における主要なアプローチとなっています。
ハード ネガ (アンカーによく似たサンプル) は、学習された表現の識別力を強化する鍵となります。
ただし、ハードネガを効率的に活用することは依然として課題です。
表現空間上で合成ハード ネガを生成することでモデルのパフォーマンスを向上させる新しいアプローチである SynCo (Synthetic Negatives in Contrastive learning) を紹介します。
SynCo は、MoCo フレームワークに基づいて、最小限の計算オーバーヘッドでさまざまな合成ハード ネガをオンザフライで作成するための 6 つの戦略を導入しています。
SynCo は、より高速なトレーニングとより優れた表現学習を実現し、200 の事前トレーニング エポック後の ImageNet ILSVRC-2012 線形評価で 67.9% のトップ 1 精度に達し、同じ ResNet-50 エンコーダーを使用した MoCo の 67.5% を上回りました。
また、検出タスクへの移行もより効果的に行われます。PASCAL VOC では、82.5% AP で教師付きベースラインと MoCo の両方を上回ります。
COCO では、バウンディング ボックス検出で 40.9% AP、インスタンス セグメンテーションで 35.5% AP という新しいベンチマークを設定しました。
当社の合成ハード ネガティブ生成アプローチは、自己教師あり対比学習を通じて学習された視覚表現を大幅に強化します。
コードは https://github.com/giakoumoglou/synco で入手できます。

要約(オリジナル)

Contrastive learning has become a dominant approach in self-supervised visual representation learning. Hard negatives – samples closely resembling the anchor – are key to enhancing learned representations’ discriminative power. However, efficiently leveraging hard negatives remains challenging. We introduce SynCo (Synthetic Negatives in Contrastive learning), a novel approach that improves model performance by generating synthetic hard negatives on the representation space. Building on the MoCo framework, SynCo introduces six strategies for creating diverse synthetic hard negatives on-the-fly with minimal computational overhead. SynCo achieves faster training and better representation learning, reaching 67.9% top-1 accuracy on ImageNet ILSVRC-2012 linear evaluation after 200 pretraining epochs, surpassing MoCo’s 67.5% using the same ResNet-50 encoder. It also transfers more effectively to detection tasks: on PASCAL VOC, it outperforms both the supervised baseline and MoCo with 82.5% AP; on COCO, it sets new benchmarks with 40.9% AP for bounding box detection and 35.5% AP for instance segmentation. Our synthetic hard negative generation approach significantly enhances visual representations learned through self-supervised contrastive learning. Code is available at https://github.com/giakoumoglou/synco.

arxiv情報

著者 Nikolaos Giakoumoglou,Tania Stathaki
発行日 2024-11-05 14:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2, I.4 パーマリンク