要約
自己教師あり学習は、さまざまなビジョンベンチマークで教師あり手法よりも優れたパフォーマンスを示しています。
埋め込みが歪みに対して不変であることを促進するシャムネットワークは、最も成功した自己監視視覚表現学習アプローチの1つです。
すべての拡張方法の中で、マスキングは最も一般的で簡単な方法であり、あらゆる種類の入力に適用できる可能性があり、必要なドメイン知識は最小限です。
ただし、マスクされたシャムネットワークは特定の誘導バイアスを必要とし、実際にはVisionTransformerでのみうまく機能します。
この作業は、ConvNetsを使用したマスクされたシャムネットワークの背後にある問題を経験的に研究します。
これらの問題を徐々に克服するために、いくつかの経験的設計を提案します。
私たちの方法は、ローショット画像分類で競争力を発揮し、オブジェクト検出ベンチマークで以前の方法を上回ります。
残りのいくつかの問題について説明し、この作業が将来の汎用の自己監視学習に役立つデータポイントを提供できることを願っています。
要約(オリジナル)
Self-supervised learning has shown superior performances over supervised methods on various vision benchmarks. The siamese network, which encourages embeddings to be invariant to distortions, is one of the most successful self-supervised visual representation learning approaches. Among all the augmentation methods, masking is the most general and straightforward method that has the potential to be applied to all kinds of input and requires the least amount of domain knowledge. However, masked siamese networks require particular inductive bias and practically only work well with Vision Transformers. This work empirically studies the problems behind masked siamese networks with ConvNets. We propose several empirical designs to overcome these problems gradually. Our method performs competitively on low-shot image classification and outperforms previous methods on object detection benchmarks. We discuss several remaining issues and hope this work can provide useful data points for future general-purpose self-supervised learning.
arxiv情報
著者 | Li Jing,Jiachen Zhu,Yann LeCun |
発行日 | 2022-06-15 17:52:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google