A Contrastive Learning Scheme with Transformer Innate Patches

要約

この論文では、Transformer の固有パッチを使用した対照学習スキームである Contrastive Transformer について説明します。
Contrastive Transformer は、画像分類によく使用される既存の対比学習技術を可能にし、セマンティック セグメンテーションなどの高密度の下流予測タスクに利益をもたらします。
このスキームは教師ありパッチレベルの対比学習を実行し、グラウンド トゥルース マスクに基づいてパッチを選択し、その後ハード ネガティブおよびハード ポジティブ サンプリングに使用されます。
このスキームはすべてのビジョン トランスフォーマー アーキテクチャに適用され、実装が簡単で、追加のメモリ フットプリントも最小限に抑えられます。
さらに、このスキームでは各パッチがイメージとして扱われるため、巨大なバッチ サイズが不要になります。
低解像度データ、大きなクラスの不均衡、および同様のセマンティック クラスで知られる航空画像セグメンテーションの場合に Contrastive Transformer を適用してテストします。
私たちは、ISPRS ポツダム航空画像セグメンテーション データセットに対する Contrastive Transformer スキームの有効性を示すために広範な実験を実行しました。
さらに、本質的に異なる複数の Transformer アーキテクチャにこのスキームを適用することで、そのスキームの一般化可能性を示します。
最終的に、結果はすべてのクラスにわたって平均 IoU が一貫して増加していることを示しています。

要約(オリジナル)

This paper presents Contrastive Transformer, a contrastive learning scheme using the Transformer innate patches. Contrastive Transformer enables existing contrastive learning techniques, often used for image classification, to benefit dense downstream prediction tasks such as semantic segmentation. The scheme performs supervised patch-level contrastive learning, selecting the patches based on the ground truth mask, subsequently used for hard-negative and hard-positive sampling. The scheme applies to all vision-transformer architectures, is easy to implement, and introduces minimal additional memory footprint. Additionally, the scheme removes the need for huge batch sizes, as each patch is treated as an image. We apply and test Contrastive Transformer for the case of aerial image segmentation, known for low-resolution data, large class imbalance, and similar semantic classes. We perform extensive experiments to show the efficacy of the Contrastive Transformer scheme on the ISPRS Potsdam aerial image segmentation dataset. Additionally, we show the generalizability of our scheme by applying it to multiple inherently different Transformer architectures. Ultimately, the results show a consistent increase in mean IoU across all classes.

arxiv情報

著者 Sander Riisøen Jyhne,Per-Arne Andersen,Morten Goodwin
発行日 2024-01-08 12:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク