要約
建設、改修、解体などの道路や橋の変化の正確な検出は、都市計画と交通管理に不可欠です。
ただし、既存の方法は、トラフィックシナリオに高品質の注釈付きデータセットがないため、きめ細かいセマンティック変更情報を抽出するのに苦労しています。
これに対処するために、多様な都市や国からの260ペアの高解像度のリモートセンシング画像を含む包括的なベンチマークである道路および橋のセマンティック変化検出(RB-SCD)データセットを紹介します。
RB-SCDは、さまざまな道路および橋の構造にわたって11種類のセマンティック変更をキャプチャし、詳細な構造的および機能分析を可能にします。
このデータセットに基づいて、周波数ドメインにマルチモーダル機能を統合する新しいフレームワーク、マルチモーダル周波数駆動変化検出器(MFDCD)を提案します。
MFDCDには、階層視覚機能をウェーブレットベースの周波数コンポーネントと融合する動的周波数カプラー(DFC)と、クリップ由来のテキスト機能を周波数ドメインに変換し、グラフベースのフィルタリングを適用するテキスト周波数フィルター(TFF)が含まれます。
RB-SCDおよび3つのパブリックベンチマークでの実験結果は、アプローチの有効性を示しています。
要約(オリジナル)
Accurate detection of changes in roads and bridges, such as construction, renovation, and demolition, is essential for urban planning and traffic management. However, existing methods often struggle to extract fine-grained semantic change information due to the lack of high-quality annotated datasets in traffic scenarios. To address this, we introduce the Road and Bridge Semantic Change Detection (RB-SCD) dataset, a comprehensive benchmark comprising 260 pairs of high-resolution remote sensing images from diverse cities and countries. RB-SCD captures 11 types of semantic changes across varied road and bridge structures, enabling detailed structural and functional analysis. Building on this dataset, we propose a novel framework, Multimodal Frequency-Driven Change Detector (MFDCD), which integrates multimodal features in the frequency domain. MFDCD includes a Dynamic Frequency Coupler (DFC) that fuses hierarchical visual features with wavelet-based frequency components, and a Textual Frequency Filter (TFF) that transforms CLIP-derived textual features into the frequency domain and applies graph-based filtering. Experimental results on RB-SCD and three public benchmarks demonstrate the effectiveness of our approach.
arxiv情報
著者 | Qingling Shu,Sibao Chen,Zhihui You,Wei Lu,Jin Tang,Bin Luo |
発行日 | 2025-05-19 14:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google