LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References

要約

通常、二時点画像の比較に依存する変更検出は、単一の画像しか利用できない場合には大幅に妨げられます。
単一の画像を、クラウドソーシングを通じて継続的に更新される OpenStreetMap などの既存の地図と比較することは、この課題に対する実行可能な解決策を提供します。
地上物体の低レベルの視覚的詳細を伝える画像とは異なり、地図は高レベルのカテゴリ情報を伝えます。
この抽象化レベルの不一致により、2 つのデータ型の調整と比較が複雑になります。
この論文では、マップ参照を使用して衛星画像の変更を検出するための \textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator、つまり \ours{} を提案します。
地図と画像の間の情報ギャップを埋めるための言語。
具体的には、\ours{} は変更検出を「{\textit ピクセルは [クラス] に属していますか?}」の問題として定式化し、言語視覚モデルの特徴空間内でマップと画像を位置合わせして高レベルの関連付けを行います。
低レベルの画像の詳細を含むマップ カテゴリ。
さらに、専門家混合の識別モジュールを構築します。これは、さまざまな意味論的観点にわたって、地図からの言語的特徴と画像からの視覚的特徴を比較し、変化検出のための包括的な意味論的比較を実現します。
4 つのベンチマーク データセットに対する広範な評価により、\ours{} はマップ参照を使用して衛星画像の変化を効果的に検出でき、最先端の変化検出アルゴリズムを上回るパフォーマンスを発揮できることが実証されました。たとえば、DynamicEarthNet データセットと
SECOND データセットの $4.3$\%。

要約(オリジナル)

Change detection, which typically relies on the comparison of bi-temporal images, is significantly hindered when only a single image is available. Comparing a single image with an existing map, such as OpenStreetMap, which is continuously updated through crowd-sourcing, offers a viable solution to this challenge. Unlike images that carry low-level visual details of ground objects, maps convey high-level categorical information. This discrepancy in abstraction levels complicates the alignment and comparison of the two data types. In this paper, we propose a \textbf{La}nguage-\textbf{VI}sion \textbf{D}iscriminator for d\textbf{E}tecting changes in satellite image with map references, namely \ours{}, which leverages language to bridge the information gap between maps and images. Specifically, \ours{} formulates change detection as the problem of “{\textit Does the pixel belong to [class]?}”, aligning maps and images within the feature space of the language-vision model to associate high-level map categories with low-level image details. Moreover, we build a mixture-of-experts discriminative module, which compares linguistic features from maps with visual features from images across various semantic perspectives, achieving comprehensive semantic comparison for change detection. Extensive evaluation on four benchmark datasets demonstrates that \ours{} can effectively detect changes in satellite image with map references, outperforming state-of-the-art change detection algorithms, e.g., with gains of about $13.8$\% on the DynamicEarthNet dataset and $4.3$\% on the SECOND dataset.

arxiv情報

著者 Shuguo Jiang,Fang Xu,Sen Jia,Gui-Song Xia
発行日 2024-11-29 15:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク