Understanding Self-Supervised Pretraining with Part-Aware Representation Learning

要約

この論文では、自己教師あり表現の事前トレーニング方法が部分認識表現を学習する能力を研究することにより、自己教師あり事前トレーニングを理解することに関心があります。
この研究は、主に、対照学習で使用されるランダム ビューと、マスクされた画像モデリングで使用されるランダム マスク (可視) パッチが、多くの場合、オブジェクトの部分に関するものであることに動機付けられています。
対照的な学習は部分から全体へのタスクであると説明します。投影レイヤーは、エンコーダーから学習したオブジェクトの部分表現からオブジェクト全体の表現を幻覚化し、マスクされた画像モデリングは部分から部分へのタスクです。
オブジェクトは目に見えるパッチから幻覚を起こします。
この説明は、オブジェクト部分を理解するには、自己教師ありの事前トレーニング済みエンコーダーが必要であることを示唆しています。
オブジェクト レベルの認識とパーツ レベルの認識に関するいくつかの代表的な方法と、事前にトレーニングされた市販のエンコーダーを経験的に比較します。
結果は、オブジェクト レベルの認識では完全教師ありモデルが自己教師ありモデルよりも優れており、部分レベル認識ではほとんどの自己教師あり対照学習およびマスク イメージ モデリング手法が完全教師ありモデルよりも優れていることを示しています。
対照的な学習とマスクされた画像モデリングの組み合わせにより、パフォーマンスがさらに向上することが観察されています。

要約(オリジナル)

In this paper, we are interested in understanding self-supervised pretraining through studying the capability that self-supervised representation pretraining methods learn part-aware representations. The study is mainly motivated by that random views, used in contrastive learning, and random masked (visible) patches, used in masked image modeling, are often about object parts. We explain that contrastive learning is a part-to-whole task: the projection layer hallucinates the whole object representation from the object part representation learned from the encoder, and that masked image modeling is a part-to-part task: the masked patches of the object are hallucinated from the visible patches. The explanation suggests that the self-supervised pretrained encoder is required to understand the object part. We empirically compare the off-the-shelf encoders pretrained with several representative methods on object-level recognition and part-level recognition. The results show that the fully-supervised model outperforms self-supervised models for object-level recognition, and most self-supervised contrastive learning and masked image modeling methods outperform the fully-supervised method for part-level recognition. It is observed that the combination of contrastive learning and masked image modeling further improves the performance.

arxiv情報

著者 Jie Zhu,Jiyang Qi,Mingyu Ding,Xiaokang Chen,Ping Luo,Xinggang Wang,Wenyu Liu,Leye Wang,Jingdong Wang
発行日 2023-01-27 18:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク