MSR: Making Self-supervised learning Robust to Aggressive Augmentations

要約

最新の自己監視学習方法は、画像のさまざまな拡張ビューを対比することによって視覚的表現を学習します。
教師あり学習と比較して、トレーニングペアの多様性をさらに改善するために、より積極的な拡張が導入されています。
ただし、積極的な拡張は画像の構造を歪め、同じ画像の拡張ビューが同じセマンティクスを共有しないという深刻なセマンティックシフトの問題を引き起こし、転送パフォーマンスを低下させる可能性があります。
この問題に対処するために、新しいSSLパラダイムを提案します。これは、弱いペアと積極的に拡張されたペアの役割のバランスをとることにより、セマンティックシフトの影響を打ち消します。
具体的には、意味的に一貫性のないペアは少数派であり、ノイズの多いペアとして扱います。
ディープニューラルネットワーク(DNN)には重要な記憶効果があり、DNNは、ノイズの多い(少数派)例に過剰適合する前に、最初にクリーンな(多数派)例を記憶する傾向があることに注意してください。
したがって、学習の初期段階で積極的に拡張されたデータペアに比較的大きな重みを設定しました。
トレーニングが進むと、モデルはノイズの多いペアに過剰適合し始めます。
したがって、積極的に拡張されたペアの重みを徐々に減らします。
そうすることで、私たちの方法は積極的な増強をよりよく受け入れ、意味変化の問題を中和することができます。
実験によると、私たちのモデルは、200エポックでResNet-50を使用したImageNet-1Kで73.1%のトップ1精度を達成しています。これは、BYOLよりも2.5%向上しています。
さらに、実験は、学習した表現がさまざまなダウンストリームタスクにうまく転送できることも示しています。

要約(オリジナル)

Most recent self-supervised learning methods learn visual representation by contrasting different augmented views of images. Compared with supervised learning, more aggressive augmentations have been introduced to further improve the diversity of training pairs. However, aggressive augmentations may distort images’ structures leading to a severe semantic shift problem that augmented views of the same image may not share the same semantics, thus degrading the transfer performance. To address this problem, we propose a new SSL paradigm, which counteracts the impact of semantic shift by balancing the role of weak and aggressively augmented pairs. Specifically, semantically inconsistent pairs are of minority and we treat them as noisy pairs. Note that deep neural networks (DNNs) have a crucial memorization effect that DNNs tend to first memorize clean (majority) examples before overfitting to noisy (minority) examples. Therefore, we set a relatively large weight for aggressively augmented data pairs at the early learning stage. With the training going on, the model begins to overfit noisy pairs. Accordingly, we gradually reduce the weights of aggressively augmented pairs. In doing so, our method can better embrace the aggressive augmentations and neutralize the semantic shift problem. Experiments show that our model achieves 73.1% top-1 accuracy on ImageNet-1K with ResNet-50 for 200 epochs, which is a 2.5% improvement over BYOL. Moreover, experiments also demonstrate that the learned representations can transfer well for various downstream tasks.

arxiv情報

著者 Yingbin Bai,Erkun Yang,Zhaoqing Wang,Yuxuan Du,Bo Han,Cheng Deng,Dadong Wang,Tongliang Liu
発行日 2022-06-04 14:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク