要約
自己監視学習は、視覚データとテキストデータの表現学習で大きな成功を収めています。
ただし、現在の方法は主に、実際のロングテール分布を示さない、適切にキュレートされたデータセットで検証されています。
自己監視型のロングテール学習を検討する最近の試みは、損失の観点またはモデルの観点でリバランスすることによって行われ、監視されたロングテール学習のパラダイムに似ています。
それにもかかわらず、ラベルの助けがなければ、これらの調査は、テールサンプルの発見またはヒューリスティックな構造設計の制限のために、期待される重要な見込みを示していません。
以前の作品とは異なり、この方向性を別の観点、つまりデータの観点から調査し、新しいBoosted Contrastive Learning(BCL)メソッドを提案します。
具体的には、BCLは、ディープニューラルネットワークの記憶効果を利用して、対照学習のサンプルビューの情報の不一致を自動的に駆動します。これにより、ラベルを認識しないコンテキストでのロングテール学習をより効率的に強化できます。
さまざまなベンチマークデータセットでの広範な実験により、いくつかの最先端の方法に対するBCLの有効性が実証されています。
私たちのコードはhttps://github.com/MediaBrain-SJTU/BCLで入手できます。
要約(オリジナル)
Self-supervised learning has achieved a great success in the representation learning of visual and textual data. However, the current methods are mainly validated on the well-curated datasets, which do not exhibit the real-world long-tailed distribution. Recent attempts to consider self-supervised long-tailed learning are made by rebalancing in the loss perspective or the model perspective, resembling the paradigms in the supervised long-tailed learning. Nevertheless, without the aid of labels, these explorations have not shown the expected significant promise due to the limitation in tail sample discovery or the heuristic structure design. Different from previous works, we explore this direction from an alternative perspective, i.e., the data perspective, and propose a novel Boosted Contrastive Learning (BCL) method. Specifically, BCL leverages the memorization effect of deep neural networks to automatically drive the information discrepancy of the sample views in contrastive learning, which is more efficient to enhance the long-tailed learning in the label-unaware context. Extensive experiments on a range of benchmark datasets demonstrate the effectiveness of BCL over several state-of-the-art methods. Our code is available at https://github.com/MediaBrain-SJTU/BCL.
arxiv情報
著者 | Zhihan Zhou,Jiangchao Yao,Yanfeng Wang,Bo Han,Ya Zhang |
発行日 | 2022-06-03 05:06:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google