要約
我々は、高密度予測タスクのためのVision Transformersの新しい自己教師付き事前学習を提示する。これは、ピクセルレベルの表現とグローバルな画像表現を比較するビュー間の対照的な損失に基づくものである。この戦略は、グローバルな画像表現のみに基づく対照的な事前学習とは対照的に、密な予測タスクに適したより良い局所的な特徴を生成する。さらに、本手法はバッチサイズの減少に悩まされることもない。なぜなら、対照的損失に必要な否定例の数は局所特徴の数と同程度であるからである。我々は、セマンティックセグメンテーションと単眼深度推定という2つの高密度予測課題において、我々の事前学習戦略の有効性を実証する。
要約(オリジナル)
We present a new self-supervised pre-training of Vision Transformers for dense prediction tasks. It is based on a contrastive loss across views that compares pixel-level representations to global image representations. This strategy produces better local features suitable for dense prediction tasks as opposed to contrastive pre-training based on global image representation only. Furthermore, our approach does not suffer from a reduced batch size since the number of negative examples needed in the contrastive loss is in the order of the number of local features. We demonstrate the effectiveness of our pre-training strategy on two dense prediction tasks: semantic segmentation and monocular depth estimation.
arxiv情報
著者 | Jaonary Rabarisoa,Valentin Belissen,Florian Chabot,Quoc-Cuong Pham |
発行日 | 2022-06-07 15:42:14+00:00 |
arxivサイト | arxiv_id(pdf) |