要約
光学的高解像度画像と OpenStreetMap (OSM) データは、土地被覆の変化を検出するための 2 つの重要なデータ ソースです。
これら 2 つのデータ ソースに関するこれまでの研究は、OSM データ内の情報を利用して、多時間光学的高解像度画像の変化検出を支援することに焦点を当てていました。
この論文は、OSM データと光学画像のペアを利用した土地被覆変化の直接検出の先駆者であり、それによって変化検出タスクの視野を広げ、より動的な地球観測を包含します。
この目的を達成するために、私たちは、普及しているオブジェクトベースの画像解析 (OBIA) 技術と高度なビジョン Transformer アーキテクチャを自然に組み合わせた、オブジェクトガイド付き Transformer (ObjFormer) アーキテクチャを提案します。
OBIA の導入により、セルフ アテンション モジュールの計算オーバーヘッドとメモリの負担を大幅に軽減できます。
具体的には、提案されたObjFormerは、OSMデータと光学画像からさまざまなレベルの代表的な特徴を抽出するオブジェクトガイド型セルフアテンションモジュールで構成される階層型擬似シャムエンコーダを備えています。
オブジェクト誘導クロスアテンション モジュールで構成されるデコーダは、抽出された異質な特徴から土地被覆の変化を段階的に復元できます。
この論文では、基本的な教師ありバイナリ変化検出タスクに加えて、意味的変化検出器を訓練するために光学画像の土地被覆ラベルに手動で注釈を付ける必要のない、新しい半教師あり意味的変化検出タスクを取り上げます。
このタスクを効率的に実行するために、2 つの軽量のセマンティック デコーダーが ObjFormer に追加されています。
逆のクロスエントロピー損失は、負のサンプルを完全に利用するように設計されており、それによってこのタスクの大幅なパフォーマンスの向上に貢献します。
6 大陸の 40 地域をカバーする 1,287 の地図と画像のペア (サンプルごとに 1024$\times$ 1024 ピクセル) を含む最初の大規模ベンチマーク データセット …(完全な要約については原稿を参照)
要約(オリジナル)
Optical high-resolution imagery and OpenStreetMap (OSM) data are two important data sources for land-cover change detection. Previous studies in these two data sources focus on utilizing the information in OSM data to aid the change detection on multi-temporal optical high-resolution images. This paper pioneers the direct detection of land-cover changes utilizing paired OSM data and optical imagery, thereby broadening the horizons of change detection tasks to encompass more dynamic earth observations. To this end, we propose an object-guided Transformer (ObjFormer) architecture by naturally combining the prevalent object-based image analysis (OBIA) technique with the advanced vision Transformer architecture. The introduction of OBIA can significantly reduce the computational overhead and memory burden in the self-attention module. Specifically, the proposed ObjFormer has a hierarchical pseudo-siamese encoder consisting of object-guided self-attention modules that extract representative features of different levels from OSM data and optical images; a decoder consisting of object-guided cross-attention modules can progressively recover the land-cover changes from the extracted heterogeneous features. In addition to the basic supervised binary change detection task, this paper raises a new semi-supervised semantic change detection task that does not require any manually annotated land-cover labels of optical images to train semantic change detectors. Two lightweight semantic decoders are added to ObjFormer to accomplish this task efficiently. A converse cross-entropy loss is designed to fully utilize the negative samples, thereby contributing to the great performance improvement in this task. The first large-scale benchmark dataset containing 1,287 map-image pairs (1024$\times$ 1024 pixels for each sample) covering 40 regions on six continents …(see the manuscript for the full abstract)
arxiv情報
著者 | Hongruixuan Chen,Cuiling Lan,Jian Song,Clifford Broni-Bediako,Junshi Xia,Naoto Yokoya |
発行日 | 2023-10-25 14:34:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google