要約
対照的なインスタンス識別方法は、画像分類やオブジェクト検出などの下流タスクで監視された学習を上回ります。
ただし、これらの方法は、表現学習中のデータ増強に大きく依存しており、慎重に実装されないと最適でない結果につながる可能性があります。
対照的な学習における一般的な増強技術は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2つのランダム作物に異なるセマンティックコンテンツが含まれている場合、表現学習の質を低下させることができます。
この問題に取り組むために、新しいインスタンス識別アプローチと適応された損失関数を採用するフレームワークであるLeoCLR(視覚表現の対照的な学習のために元の画像を活用)を紹介します。
この方法は、表現学習中に異なるオブジェクトパーツをマッピングすることによって引き起こされる重要なセマンティック機能の喪失を防ぎます。
私たちの実験は、LeoCLRがさまざまなデータセット全体で表現学習を一貫して改善し、ベースラインモデルを上回ることを示しています。
たとえば、Leoclrは、線形評価でImagenet-1KでMoco-V2を5.1%上回り、転送学習およびオブジェクト検出タスクで他のいくつかの方法を上回ります。
要約(オリジナル)
Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.
arxiv情報
著者 | Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong |
発行日 | 2025-04-18 11:46:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google