Location-Aware Self-Supervised Transformers

要約

ピクセルレベルのラベルは取得に特にコストがかかる。したがって、意味分割のようなタスクでモデルを改善するために、事前学習は重要なステップである。しかし、ニューラルネットワークの事前学習のための著名なアルゴリズムは、画像分類、CLIPのような画像-テキストアライメント、自己教師付きコントラスト学習など、画像レベルの目標を使用しています。これらの目的は空間情報をモデル化していないため、空間的推論を伴う下流タスクで微調整を行う際に最適でない可能性がある。本研究では、画像部品の相対的位置を予測することにより、意味的セグメンテーションのためにネットワークを事前学習することを提案する。我々はこのタスクを分類問題として定式化し、クエリビューの各パッチが他の参照ビューに対する相対的な位置を予測しなければならないようにする。我々は、参照パッチの特徴のうち、クエリの特徴に対して可視な部分集合をマスクすることで、タスクの難易度を制御する。我々の実験では、この位置を考慮した(LOCA)自己教師付き事前学習により、いくつかの困難な意味的セグメンテーションベンチマークに対して競争力のある表現が得られることが示された。

要約(オリジナル)

Pixel-level labels are particularly expensive to acquire. Hence, pretraining is a critical step to improve models on a task like semantic segmentation. However, prominent algorithms for pretraining neural networks use image-level objectives, e.g. image classification, image-text alignment a la CLIP, or self-supervised contrastive learning. These objectives do not model spatial information, which might be suboptimal when finetuning on downstream tasks with spatial reasoning. In this work, we propose to pretrain networks for semantic segmentation by predicting the relative location of image parts. We formulate this task as a classification problem where each patch in a query view has to predict its position relatively to another reference view. We control the difficulty of the task by masking a subset of the reference patch features visible to those of the query. Our experiments show that this location-aware (LOCA) self-supervised pretraining leads to representations that transfer competitively to several challenging semantic segmentation benchmarks.

arxiv情報

著者 Mathilde Caron,Neil Houlsby,Cordelia Schmid
発行日 2022-12-05 16:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク