Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images

要約

リモート センシング画像変化キャプション (RSICC) は、二時点のリモート センシング画像ペア間の意味論的な変化を説明する人間のような言語を生成することを目的としています。
これは、環境力学と土地管理に関する貴重な洞察を提供します。
従来の変更キャプションタスクとは異なり、RSICC には、さまざまなモダリティにわたって関連情報を取得し、滑らかなキャプションを生成するだけでなく、地形変化の位置特定に対するピクセルレベルの違いの影響を軽減することも含まれます。
長いタイムスパンによるピクセルの問題により、生成されるキャプションの精度が低下します。
拡散モデルの顕著な生成力に触発されて、我々は前述の問題を解決するための RSICC の確率的拡散モデルを提案します。
トレーニングプロセスでは、実際のキャプション分布からマルコフ連鎖に基づく標準ガウス分布までの分布を学習するために、クロスモーダル特徴に条件付けされたノイズ予測器を構築します。
一方、クロスモード融合とスタッキングセルフアテンションモジュールは、逆のプロセスでノイズ予測器用に設計されています。
テスト段階では、十分にトレーニングされたノイズ予測機能が分布の平均値を推定し、変更キャプションを段階的に生成するのに役立ちます。
LEVIR-CC データセットに関する広範な実験により、Diffusion-RSCC とその個々のコンポーネントの有効性が実証されました。
定量的な結果は、従来の指標と新たに強化された指標の両方において、既存の手法よりも優れたパフォーマンスを示しています。
コードと資料は、https://github.com/Fay-Y/Diffusion-RSCC からオンラインで入手できます。

要約(オリジナル)

Remote sensing image change captioning (RSICC) aims at generating human-like language to describe the semantic changes between bi-temporal remote sensing image pairs. It provides valuable insights into environmental dynamics and land management. Unlike conventional change captioning task, RSICC involves not only retrieving relevant information across different modalities and generating fluent captions, but also mitigating the impact of pixel-level differences on terrain change localization. The pixel problem due to long time span decreases the accuracy of generated caption. Inspired by the remarkable generative power of diffusion model, we propose a probabilistic diffusion model for RSICC to solve the aforementioned problems. In training process, we construct a noise predictor conditioned on cross modal features to learn the distribution from the real caption distribution to the standard Gaussian distribution under the Markov chain. Meanwhile, a cross-mode fusion and a stacking self-attention module are designed for noise predictor in the reverse process. In testing phase, the well-trained noise predictor helps to estimate the mean value of the distribution and generate change captions step by step. Extensive experiments on the LEVIR-CC dataset demonstrate the effectiveness of our Diffusion-RSCC and its individual components. The quantitative results showcase superior performance over existing methods across both traditional and newly augmented metrics. The code and materials will be available online at https://github.com/Fay-Y/Diffusion-RSCC.

arxiv情報

著者 Xiaofei Yu,Yitong Li,Jie Ma
発行日 2024-05-21 15:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク