LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References


単一の画像を、クラウドソーシングを通じて継続的に更新される OpenStreetMap などの既存の地図と比較することは、この課題に対する実行可能な解決策を提供します。
この抽象化レベルの不一致により、2 つのデータ型の調整と比較が複雑になります。
この論文では、マップ参照を使用して衛星画像の変更を検出するための \textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator、つまり \ours{} を提案します。
具体的には、\ours{} は変更検出を「{\textit ピクセルは [クラス] に属していますか?}」の問題として定式化し、言語視覚モデルの特徴空間内でマップと画像を位置合わせして高レベルの関連付けを行います。
低レベルの画像の詳細を含むマップ カテゴリ。
4 つのベンチマーク データセットに対する広範な評価により、\ours{} はマップ参照を使用して衛星画像の変化を効果的に検出でき、最先端の変化検出アルゴリズムを上回るパフォーマンスを発揮できることが実証されました。たとえば、DynamicEarthNet データセットと
SECOND データセットの $4.3$\%。


Change detection, which typically relies on the comparison of bi-temporal images, is significantly hindered when only a single image is available. Comparing a single image with an existing map, such as OpenStreetMap, which is continuously updated through crowd-sourcing, offers a viable solution to this challenge. Unlike images that carry low-level visual details of ground objects, maps convey high-level categorical information. This discrepancy in abstraction levels complicates the alignment and comparison of the two data types. In this paper, we propose a \textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator for d\textbf{E}tecting changes in satellite image with map references, namely \ours{}, which leverages language to bridge the information gap between maps and images. Specifically, \ours{} formulates change detection as the problem of “{\textit Does the pixel belong to [class]?}”, aligning maps and images within the feature space of the language-vision model to associate high-level map categories with low-level image details. Moreover, we build a mixture-of-experts discriminative module, which compares linguistic features from maps with visual features from images across various semantic perspectives, achieving comprehensive semantic comparison for change detection. Extensive evaluation on four benchmark datasets demonstrates that \ours{} can effectively detect changes in satellite image with map references, outperforming state-of-the-art change detection algorithms, e.g., with gains of about $13.8$\% on the DynamicEarthNet dataset and $4.3$\% on the SECOND dataset.


著者 Shuguo Jiang,Fang Xu,Sen Jia,Gui-Song Xia
発行日 2024-11-29 15:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク