Similarity Contrastive Estimation for Image and Video Soft Contrastive Self-Supervised Learning

要約

対照表現学習は、画像とビデオの効果的な自己教師あり学習方法であることが証明されています。
最も成功しているアプローチは、Noise Contrastive Estimation (NCE) に基づいており、インスタンスのさまざまなビューを、ノイズと見なされるネガティブと呼ばれる他のインスタンスと対比する必要があるポジティブとして使用します。
ただし、データセット内のいくつかのインスタンスは同じ分布から抽出され、基になるセマンティック情報を共有します。
優れたデータ表現には、すべてのネガをノイズと見なすことによって対照学習が害を及ぼすインスタンス間の関係、または意味的な類似性と非類似性が含まれている必要があります。
この問題を回避するために、Similarity Contrastive Estimation (SCE) と呼ばれるインスタンス間の意味的類似性を使用した対照学習の新しい定式化を提案します。
私たちのトレーニング目標は、肯定的なものを近づけ、学習した類似性に基づいて否定的なインスタンスを押したり引いたりする連続分布を推定する、ソフトな対照的なものです。
画像とビデオ表現学習の両方に対するアプローチを経験的に検証します。
SCE が ImageNet 線形評価プロトコルの最先端技術と競合するように実行し、事前トレーニング エポックを減らし、いくつかのダウンストリーム イメージ タスクに一般化することを示します。
また、SCE がビデオ表現を事前トレーニングするための最先端の結果に到達し、学習した表現がビデオ ダウンストリーム タスクに一般化できることも示します。

要約(オリジナル)

Contrastive representation learning has proven to be an effective self-supervised learning method for images and videos. Most successful approaches are based on Noise Contrastive Estimation (NCE) and use different views of an instance as positives that should be contrasted with other instances, called negatives, that are considered as noise. However, several instances in a dataset are drawn from the same distribution and share underlying semantic information. A good data representation should contain relations between the instances, or semantic similarity and dissimilarity, that contrastive learning harms by considering all negatives as noise. To circumvent this issue, we propose a novel formulation of contrastive learning using semantic similarity between instances called Similarity Contrastive Estimation (SCE). Our training objective is a soft contrastive one that brings the positives closer and estimates a continuous distribution to push or pull negative instances based on their learned similarities. We validate empirically our approach on both image and video representation learning. We show that SCE performs competitively with the state of the art on the ImageNet linear evaluation protocol for fewer pretraining epochs and that it generalizes to several downstream image tasks. We also show that SCE reaches state-of-the-art results for pretraining video representation and that the learned representation can generalize to video downstream tasks.

arxiv情報

著者 Julien Denize,Jaonary Rabarisoa,Astrid Orcesi,Romain Hérault
発行日 2022-12-21 16:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク