MS-Former: Memory-Supported Transformer for Weakly Supervised Change Detection with Patch-Level Annotations

要約

完全に監視された変更検出方法は、パフォーマンスにおいて大幅な進歩を達成しましたが、コストのかかるピクセルレベルのラベルの取得に大きく依存しています。
パッチレベルの注釈にも、バイテンポラル画像内の変更されたオブジェクトと未変更のオブジェクトの両方に対応する豊富な情報が含まれていることを考慮すると、直感的な解決策は、パッチレベルの注釈を使用して変更をセグメント化することです。
パッチレベルのアノテーションから、変更された領域と未変更の領域に関連付けられた意味の変化をどのように取得して、有望な変更結果を取得するかは、弱監視された変更検出タスクにとって重要な課題です。
この論文では、双方向アテンション ブロック (BAB) とパッチ レベルの監視スキーム (PSS) で構成される新しいフレームワークであるメモリ サポート トランスフォーマー (MS-Former) を提案します。
レベルの注釈。
より具体的には、BAM は、時間差分特徴から変更された領域と未変更の領域に関連付けられたコンテキストをキャプチャし、メモリ バンクに保存された有益なプロトタイプを構築します。
一方、BAM はプロトタイプから有用な情報を補足コンテキストとして抽出し、時間的な差分特徴を強化することで、変更された領域と変更されていない領域をより適切に区別します。
その後、PSS はネットワークがパッチレベルのアノテーションから貴重な知識を学習するように導き、パフォーマンスをさらに向上させます。
3 つのベンチマーク データセットに関する実験結果は、変更検出タスクにおける提案手法の有効性を示しています。
私たちの作業のデモ コードは、\url{https://github.com/guanyuezhen/MS-Former} で公開されます。

要約(オリジナル)

Fully supervised change detection methods have achieved significant advancements in performance, yet they depend severely on acquiring costly pixel-level labels. Considering that the patch-level annotations also contain abundant information corresponding to both changed and unchanged objects in bi-temporal images, an intuitive solution is to segment the changes with patch-level annotations. How to capture the semantic variations associated with the changed and unchanged regions from the patch-level annotations to obtain promising change results is the critical challenge for the weakly supervised change detection task. In this paper, we propose a memory-supported transformer (MS-Former), a novel framework consisting of a bi-directional attention block (BAB) and a patch-level supervision scheme (PSS) tailored for weakly supervised change detection with patch-level annotations. More specifically, the BAM captures contexts associated with the changed and unchanged regions from the temporal difference features to construct informative prototypes stored in the memory bank. On the other hand, the BAM extracts useful information from the prototypes as supplementary contexts to enhance the temporal difference features, thereby better distinguishing changed and unchanged regions. After that, the PSS guides the network learning valuable knowledge from the patch-level annotations, thus further elevating the performance. Experimental results on three benchmark datasets demonstrate the effectiveness of our proposed method in the change detection task. The demo code for our work will be publicly available at \url{https://github.com/guanyuezhen/MS-Former}.

arxiv情報

著者 Zhenglai Li,Chang Tang,Xinwang Liu,Changdong Li,Xianju Li,Wei Zhang
発行日 2023-11-16 09:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク