要約
既存の視覚的変化検出器は通常、特徴表現の学習に CNN またはトランスフォーマーを採用し、画像間の変化領域の効果的な表現を学習することに重点を置いています。
変化領域の特徴を強化することで良好なパフォーマンスを得ることができますが、主に変更されていない背景のコンテキスト情報をマイニングすることができないため、これらの作業は依然として制限されています。
変化検出の主な課題の 1 つは、空間変化や太陽光の強さなどの異なる変化を伴う 2 つの画像の一貫した表現をどのように取得するかであることが知られています。この研究では、共通の背景情報を慎重にマイニングすることで重要な情報が得られることを示しています。
2 つの画像の一貫した表現を学習するための手がかりとなり、視覚的な変化の検出問題が明らかに容易になります。
この観察に基づいて、視覚変化検出問題のための新しい視覚変化トランスフォーマー (VcT) モデルを提案します。
具体的には、まず共有バックボーン ネットワークを使用して、指定された画像ペアの特徴マップを抽出します。
次に,特徴マップの各ピクセルをグラフノードとみなし,粗変化マップ予測のための構造化情報をモデル化するグラフニューラルネットワークを提案した。
トップ K の信頼できるトークンをマップからマイニングし、クラスタリング アルゴリズムを使用して洗練することができます。
次に、これらの信頼できるトークンは、最初に自己/クロス注意スキームを利用し、次にアンカー主注意学習モジュールを介して元の特徴と対話することによって強化されます。
最後に、より正確な変化マップを取得するための予測ヘッドを提案します。
複数のベンチマーク データセットに対する広範な実験により、提案した VcT モデルの有効性が検証されました。
要約(オリジナル)
Existing visual change detectors usually adopt CNNs or Transformers for feature representation learning and focus on learning effective representation for the changed regions between images. Although good performance can be obtained by enhancing the features of the change regions, however, these works are still limited mainly due to the ignorance of mining the unchanged background context information. It is known that one main challenge for change detection is how to obtain the consistent representations for two images involving different variations, such as spatial variation, sunlight intensity, etc. In this work, we demonstrate that carefully mining the common background information provides an important cue to learn the consistent representations for the two images which thus obviously facilitates the visual change detection problem. Based on this observation, we propose a novel Visual change Transformer (VcT) model for visual change detection problem. To be specific, a shared backbone network is first used to extract the feature maps for the given image pair. Then, each pixel of feature map is regarded as a graph node and the graph neural network is proposed to model the structured information for coarse change map prediction. Top-K reliable tokens can be mined from the map and refined by using the clustering algorithm. Then, these reliable tokens are enhanced by first utilizing self/cross-attention schemes and then interacting with original features via an anchor-primary attention learning module. Finally, the prediction head is proposed to get a more accurate change map. Extensive experiments on multiple benchmark datasets validated the effectiveness of our proposed VcT model.
arxiv情報
著者 | Bo Jiang,Zitian Wang,Xixi Wang,Ziyan Zhang,Lan Chen,Xiao Wang,Bin Luo |
発行日 | 2023-10-17 17:25:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google