Unsupervised Visual Representation Learning by Synchronous Momentum Grouping

要約

本論文では、ImageNetでの線形評価性能がバニラ教師あり学習を超える本物のグループレベルの対照視覚表現学習法を提案する。
2つの主流の教師なし学習スキームは、インスタンスレベルの対照的なフレームワークとクラスタリングベースのスキームです。
前者は、偽陰性のために監視信号が効率的でない非常にきめ細かいインスタンスレベルの識別を採用しています。
後者はこれを解決しますが、通常、パフォーマンスに影響を与えるいくつかの制限があります。
それらの利点を統合するために、SMoGメソッドを設計します。
SMoGは対照学習のフレームワークに従いますが、クラスタリングベースの方法を模倣して、インスタンスからグループへと対照ユニットを置き換えます。
これを達成するために、表現学習と特徴のグループ化を同期的に実行する運動量グループ化スキームを提案します。
このようにして、SMoGは、クラスタリングベースの方法が通常直面する監視信号ヒステリシスの問題を解決し、インスタンスの対照的な方法のフォールスネガティブを減らします。
徹底的な実験を行って、SMoGがCNNとTransformerの両方のバックボーンでうまく機能することを示します。
結果は、SMoGが現在のSOTA教師なし表現学習方法を上回っていることを証明しています。
さらに、その線形評価結果は、バニラ教師あり学習によって得られたパフォーマンスを上回り、表現は下流のタスクにうまく転送できます。

要約(オリジナル)

In this paper, we propose a genuine group-level contrastive visual representation learning method whose linear evaluation performance on ImageNet surpasses the vanilla supervised learning. Two mainstream unsupervised learning schemes are the instance-level contrastive framework and clustering-based schemes. The former adopts the extremely fine-grained instance-level discrimination whose supervisory signal is not efficient due to the false negatives. Though the latter solves this, they commonly come with some restrictions affecting the performance. To integrate their advantages, we design the SMoG method. SMoG follows the framework of contrastive learning but replaces the contrastive unit from instance to group, mimicking clustering-based methods. To achieve this, we propose the momentum grouping scheme which synchronously conducts feature grouping with representation learning. In this way, SMoG solves the problem of supervisory signal hysteresis which the clustering-based method usually faces, and reduces the false negatives of instance contrastive methods. We conduct exhaustive experiments to show that SMoG works well on both CNN and Transformer backbones. Results prove that SMoG has surpassed the current SOTA unsupervised representation learning methods. Moreover, its linear evaluation results surpass the performances obtained by vanilla supervised learning and the representation can be well transferred to downstream tasks.

arxiv情報

著者 Bo Pang,Yifan Zhang,Yaoyi Li,Jia Cai,Cewu Lu
発行日 2022-07-13 13:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク