要約
本論文では、高密度予測タスクのためのシンプルな教師なし学習フレームワークであるDense Siamese Network (DenseSiam)を紹介する。これは、1つの画像の2つのビューの間の類似性を、2種類の整合性、すなわち画素整合性と領域整合性を用いて最大化することにより、視覚表現を学習するものである。具体的には、DenseSiamはまず、重なり合った領域内の正確な位置の対応関係に従って、画素レベルの空間的整合性を最大化する。また、重複領域内のいくつかの小領域に対応する領域埋め込みを一括して抽出し、領域の整合性を対比させる。負のピクセルペア、モーメンタムエンコーダ、ヒューリスティックマスクを必要とする従来の手法とは対照的に、DenseSiamは単純なシャムネットワークの恩恵を受け、異なる粒度の整合性を最適化する。また、単純な位置対応と相互作用する領域の埋め込みが、類似性を学習するのに十分有効であることを証明する。我々は、DenseSiamをImageNetに適用し、様々な下流タスクにおいて競争力のある改善を得ることができた。また、タスク固有の損失を追加するだけで、この単純なフレームワークが密な予測タスクを直接行うことができることを示す。既存の教師なしセマンティックセグメンテーションベンチマークにおいて、28%の学習コストで、2.1mIoUを上回るセグメンテーション手法を実現することができる。コードとモデルは https://github.com/ZwwWayne/DenseSiam で公開されています。
要約(オリジナル)
This paper presents Dense Siamese Network (DenseSiam), a simple unsupervised learning framework for dense prediction tasks. It learns visual representations by maximizing the similarity between two views of one image with two types of consistency, i.e., pixel consistency and region consistency. Concretely, DenseSiam first maximizes the pixel level spatial consistency according to the exact location correspondence in the overlapped area. It also extracts a batch of region embeddings that correspond to some sub-regions in the overlapped area to be contrasted for region consistency. In contrast to previous methods that require negative pixel pairs, momentum encoders or heuristic masks, DenseSiam benefits from the simple Siamese network and optimizes the consistency of different granularities. It also proves that the simple location correspondence and interacted region embeddings are effective enough to learn the similarity. We apply DenseSiam on ImageNet and obtain competitive improvements on various downstream tasks. We also show that only with some extra task-specific losses, the simple framework can directly conduct dense prediction tasks. On an existing unsupervised semantic segmentation benchmark, it surpasses state-of-the-art segmentation methods by 2.1 mIoU with 28% training costs. Code and models are released at https://github.com/ZwwWayne/DenseSiam.
arxiv情報
著者 | Wenwei Zhang,Jiangmiao Pang,Kai Chen,Chen Change Loy |
発行日 | 2022-08-10 12:11:14+00:00 |
arxivサイト | arxiv_id(pdf) |