要約
主流の対照学習を含む自己教師あり学習 (SSL) は、データの注釈なしで視覚表現を学習することに大きな成功を収めています。
しかし、ほとんどの手法は主にインスタンス レベルの情報 (つまり、同じインスタンスの異なる拡張画像は同じ特徴を持つか、同じクラスにクラスター化される必要がある) に焦点を当てており、異なるインスタンス間の関係については注意が欠けています。
この論文では、異なるインスタンス間の関係をモデル化することで表現を学習するリレーショナル自己教師あり学習 (ReSSL) フレームワークと呼ばれる、新しい SSL パラダイムを紹介します。
具体的には、私たちが提案する方法は、異なるインスタンス間のペアごとの類似性の鮮明化された分布を \textit{relation} メトリクスとして採用し、これをさまざまな拡張の特徴埋め込みを照合するために利用します。
パフォーマンスを向上させるためには、より信頼性の高い関係を表現するために弱い拡張が重要であると主張し、実際的な効率のためにモメンタム戦略を活用します。
設計された非対称プレディクタ ヘッドと InfoNCE ウォームアップ戦略により、ハイパーパラメータに対する堅牢性が強化され、結果として得られるパフォーマンスが向上します。
実験結果は、私たちが提案する ReSSL が、さまざまな軽量ネットワーク (EfficientNet や MobileNet など) を含むさまざまなネットワーク アーキテクチャにわたって最先端の方法よりも大幅に優れていることを示しています。
要約(オリジナル)
Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduce a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as \textit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. To boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. The designed asymmetric predictor head and an InfoNCE warm-up strategy enhance the robustness to hyper-parameters and benefit the resulting performance. Experimental results show that our proposed ReSSL substantially outperforms the state-of-the-art methods across different network architectures, including various lightweight networks (\eg, EfficientNet and MobileNet).
arxiv情報
| 著者 | Mingkai Zheng,Shan You,Fei Wang,Chen Qian,Changshui Zhang,Xiaogang Wang,Chang Xu | 
| 発行日 | 2024-06-03 12:06:06+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
