Transformer-based Multimodal Change Detection with Multitask Consistency Constraints

要約

変化の検出は、地球観測において時間の経過に伴う時間的反復を分析するための基本的な役割を果たします。
しかし、最近の研究では、単一モードのアプローチと比較して実用的および技術的に大きな利点をもたらすマルチモーダル データの利用がほとんど無視されてきました。
この研究は、2D を超えた変化を検出するために、さまざまな時点で取得されたデジタル サーフェス モデル (DSM) データと航空画像を活用することに焦点を当てています。
現在の変化検出方法は、意味論的タスクと高さ変化検出タスクの間のマルチタスクの競合に苦戦していることがわかります。
この課題に対処するために、クロスアテンションを通じて次元を超えた入力間の共有表現を学習する効率的な Transformer ベースのネットワークを提案します。
一貫性制約を採用してマルチモーダルな関係を確立します。これには、高さ変化のしきい値処理を通じて擬似変化を取得し、オーバーラップ領域内で意味的変化と擬似変化の間の差を最小限に抑えることが含まれます。
オランダの 3 つの都市を含む DSM から画像へのマルチモーダル データセットが構築されました。
これは、次元を超えた入力から 2D を超えた変化を検出するための新しい基盤を築きます。
5 つの最先端の変更検出方法と比較して、私たちのモデルは、セマンティックおよび高さの変更検出の点で一貫したマルチタスクの優位性を示しています。
さらに、一貫性戦略は他の方法にもシームレスに適用でき、期待できる改善が得られます。

要約(オリジナル)

Change detection plays a fundamental role in Earth observation for analyzing temporal iterations over time. However, recent studies have largely neglected the utilization of multimodal data that presents significant practical and technical advantages compared to single-modal approaches. This research focuses on leveraging digital surface model (DSM) data and aerial images captured at different times for detecting change beyond 2D. We observe that the current change detection methods struggle with the multitask conflicts between semantic and height change detection tasks. To address this challenge, we propose an efficient Transformer-based network that learns shared representation between cross-dimensional inputs through cross-attention. It adopts a consistency constraint to establish the multimodal relationship, which involves obtaining pseudo change through height change thresholding and minimizing the difference between semantic and pseudo change within their overlapping regions. A DSM-to-image multimodal dataset encompassing three cities in the Netherlands was constructed. It lays a new foundation for beyond-2D change detection from cross-dimensional inputs. Compared to five state-of-the-art change detection methods, our model demonstrates consistent multitask superiority in terms of semantic and height change detection. Furthermore, the consistency strategy can be seamlessly adapted to the other methods, yielding promising improvements.

arxiv情報

著者 Biyuan Liu,Huaixin Chen,Kun Li,Michael Ying Yang
発行日 2023-10-13 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク