要約
対照的インスタンス識別手法は、画像分類や物体検出などの下流タスクにおいて教師あり学習よりも優れたパフォーマンスを発揮します。
ただし、これらの方法は表現学習中のデータ拡張に大きく依存しているため、慎重に実装しないと次善の結果が得られる可能性があります。
対照学習における一般的な拡張手法は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2 つのランダムなクロップに異なる意味論的なコンテンツが含まれる場合、表現学習の品質が低下する可能性があります。
この問題に取り組むために、新しいインスタンス識別アプローチと適応損失関数を採用したフレームワークである LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations) を導入します。
この方法は、表現学習中にさまざまなオブジェクト部分をマッピングすることによって引き起こされる重要な意味論的特徴の損失を防ぎます。
私たちの実験は、LeOCLR がさまざまなデータセットにわたって表現学習を一貫して向上させ、ベースライン モデルを上回るパフォーマンスを示していることを示しています。
たとえば、LeOCLR は、線形評価において ImageNet-1K 上で MoCo-v2 を 5.1% 上回り、転移学習および物体検出タスクにおいては他のいくつかの方法よりも優れています。
要約(オリジナル)
Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.
arxiv情報
著者 | Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong |
発行日 | 2024-10-15 15:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google