DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensing

要約

リモートセンシングの移動オブジェクト検出(MOD)は、低解像度、非常に小さなオブジェクトサイズ、および複雑なノイズ干渉によって大幅に課せられます。
現在のディープラーニングベースのMODメソッドは、オブジェクト間および時間的フレーム間の柔軟な情報相互作用を制限する確率密度推定に依存しています。
高次のオブジェクト間および時間的関係を柔軟にキャプチャするために、リモートセンシングでポイントベースのMODを提案します。
拡散モデルに触発されたネットワーク最適化は、移動するオブジェクトセンターをまばらなノイズの多いポイントから繰り返し回復するプログレッシブ除去プロセスとして定式化されています。
具体的には、バックボーン出力からの散乱特徴を後続の処理のための原子単位としてサンプリングしますが、グローバルな特徴埋め込みは、スパースポイント機能の限られたカバレッジを補正するために集計されています。
空間的相対位置とセマンティックアフィニティをモデル化することにより、空間的関係集約の注意は、オブジェクト表現を強化するためにポイントレベルの特徴間の高次相互作用を可能にするように設計されています。
時間的一貫性を高めるために、一時的な伝播とグローバル融合モジュールが設計されており、これにより、堅牢なクロスフレーム特徴統合のための暗黙のメモリ推論メカニズムを活用します。
プログレッシブ除去プロセスに合わせて、各除去レベルで専門学習目標を確立するプログレッシブミンク最適輸送割り当て戦略を提案します。
さらに、不足している損失関数を導入して、顕著なオブジェクトの周りの除去されたポイントのクラスタリング傾向に対抗します。
RSDATAリモートセンシングMODデータセットでの実験は、散乱ポイント除去に基づくMODメソッドが、スパース移動オブジェクト間の潜在的な関係をより効果的に調査し、検出能力と時間的一貫性を改善できることを示しています。

要約(オリジナル)

Moving object detection (MOD) in remote sensing is significantly challenged by low resolution, extremely small object sizes, and complex noise interference. Current deep learning-based MOD methods rely on probability density estimation, which restricts flexible information interaction between objects and across temporal frames. To flexibly capture high-order inter-object and temporal relationships, we propose a point-based MOD in remote sensing. Inspired by diffusion models, the network optimization is formulated as a progressive denoising process that iteratively recovers moving object centers from sparse noisy points. Specifically, we sample scattered features from the backbone outputs as atomic units for subsequent processing, while global feature embeddings are aggregated to compensate for the limited coverage of sparse point features. By modeling spatial relative positions and semantic affinities, Spatial Relation Aggregation Attention is designed to enable high-order interactions among point-level features for enhanced object representation. To enhance temporal consistency, the Temporal Propagation and Global Fusion module is designed, which leverages an implicit memory reasoning mechanism for robust cross-frame feature integration. To align with the progressive denoising process, we propose a progressive MinK optimal transport assignment strategy that establishes specialized learning objectives at each denoising level. Additionally, we introduce a missing loss function to counteract the clustering tendency of denoised points around salient objects. Experiments on the RsData remote sensing MOD dataset show that our MOD method based on scattered point denoising can more effectively explore potential relationships between sparse moving objects and improve the detection capability and temporal consistency.

arxiv情報

著者 Jinyue Zhang,Xiangrong Zhang,Zhongjian Huang,Tianyang Zhang,Yifei Jiang,Licheng Jiao
発行日 2025-04-14 14:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.CV, I.4.8 パーマリンク