Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where

要約

画像データは、トークン化手順とビジョン トランスフォーマー バックボーンの導入により、マスキングと自己再構成の目的に基づいて構築された、シンプルだが効果的な自己教師あり学習スキームを享受し始めていますが、畳み込みニューラル ネットワークは、画像用のもう 1 つの重要で広く採用されているアーキテクチャです。
データは、自己教師あり学習を促進するための対照学習手法を備えていますが、そのような単純で一般的なマスキング操作を活用して学習プロセスに大きな利益をもたらすという困難に依然として直面しています。
この研究では、畳み込みニューラル ネットワークの対照学習フレームワークに追加の拡張方法としてマスキング操作を組み込む負担を軽減することを目的としています。
従来の研究で議論されてきた、付加的ではあるが望ましくないエッジ (マスクされた領域とマスクされていない領域の間) および ConvNet のマスキング操作によって引き起こされるその他の悪影響に加えて、特に、対照的な 1 つのビューに対して潜在的な問題を特定します。
サンプルペアでは、ランダムにサンプリングされたマスキング領域が重要/顕著なオブジェクトに過度に集中する可能性があり、その結果、他のビューとのコントラストが誤解を招く結果になります。
この目的のために、マスキングベースの拡張を実現するために、マスクされた領域が前景と背景の間でより均等に分散される顕著性制約を明示的に考慮することを提案します。
さらに、入力画像内の顕著なパッチのより大きな領域をマスクすることにより、ハード ネガティブ サンプルを導入します。
さまざまなデータセット、対照的な学習メカニズム、および下流のタスクに対して行われた広範な実験により、いくつかの最先端のベースラインに関して、提案された方法の有効性と優れたパフォーマンスが十分に検証されています。

要約(オリジナル)

While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly. In this work, we aim to alleviate the burden of including masking operation into the contrastive-learning framework for convolutional neural networks as an extra augmentation method. In addition to the additive but unwanted edges (between masked and unmasked regions) as well as other adverse effects caused by the masking operations for ConvNets, which have been discussed by prior works, we particularly identify the potential problem where for one view in a contrastive sample-pair the randomly-sampled masking regions could be overly concentrated on important/salient objects thus resulting in misleading contrastiveness to the other view. To this end, we propose to explicitly take the saliency constraint into consideration in which the masked regions are more evenly distributed among the foreground and background for realizing the masking-based augmentation. Moreover, we introduce hard negative samples by masking larger regions of salient patches in an input image. Extensive experiments conducted on various datasets, contrastive learning mechanisms, and downstream tasks well verify the efficacy as well as the superior performance of our proposed method with respect to several state-of-the-art baselines.

arxiv情報

著者 Zhi-Yi Chin,Chieh-Ming Jiang,Ching-Chun Huang,Pin-Yu Chen,Wei-Chen Chiu
発行日 2023-09-22 09:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク