LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約

対照的なインスタンスの識別は、画像分類や物体検出などの下流タスクにおいて教師あり学習よりも優れた性能を発揮します。
ただし、このアプローチは表現学習中のデータ拡張に大きく依存しているため、適切に実装されていない場合は結果が劣る可能性があります。
ランダムなトリミングとそれに続くサイズ変更は、対照学習で使用されるデータ拡張の一般的な形式ですが、2 つのランダムなトリミングに異なる意味論的なコンテンツが含まれている場合、表現学習の劣化につながる可能性があります。
この問題に対処するために、この論文では LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations) を紹介します。これは、新しいインスタンス識別アプローチと、正のペア間の共有領域が意味的に正しいことを保証する適応損失関数を採用するフレームワークです。
実験結果は、ベースライン モデルと比較して、私たちのアプローチがさまざまなデータセットにわたって表現学習を一貫して改善していることを示しています。
たとえば、私たちのアプローチは、線形評価および転移学習タスクに関する他のいくつかの方法において、ImageNet-1K 上で MoCo-v2 よりも 5.1% 優れています。

要約(オリジナル)

Contrastive instance discrimination outperforms supervised learning in downstream tasks like image classification and object detection. However, this approach heavily relies on data augmentation during representation learning, which may result in inferior results if not properly implemented. Random cropping followed by resizing is a common form of data augmentation used in contrastive learning, but it can lead to degraded representation learning if the two random crops contain distinct semantic content. To address this issue, this paper introduces LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a new instance discrimination approach and an adapted loss function that ensures the shared region between positive pairs is semantically correct. The experimental results show that our approach consistently improves representation learning across different datasets compared to baseline models. For example, our approach outperforms MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and several other methods on transfer learning tasks.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2024-03-11 15:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク