A Lightweight Transformer for Remote Sensing Image Change Captioning

要約

リモート センシング画像変更キャプション (RSICC) は、リモート センシング二時間画像の内容の違いを説明する文章を自動的に生成することを目的としています。
最近、世界的な変化の特徴を捉えるためのアテンションベースのトランスフォーマーが一般的なアイデアになりました。
しかし、既存の変圧器ベースの RSICC 手法は、変圧器エンコーダ コンポーネントでのセルフアテンション動作によって引き起こされる高いパラメータや高い計算の複雑さなどの課題に直面しています。
これらの問題を軽減するために、この文書では RSICC タスク用の Sparse Focus Transformer (SFT) を提案します。
具体的には、SFT ネットワークは 3 つの主要コンポーネントで構成されます。つまり、畳み込みニューラル ネットワーク (CNN) に基づく高レベルの特徴抽出器、二時間画像内の変化する領域を特定してキャプチャするように設計されたスパース フォーカス アテンション メカニズムに基づくトランスフォーマー エンコーダー ネットワークです。
、および画像と単語を埋め込んで違いをキャプションするための文を生成する説明デコーダー。
提案された SFT ネットワークは、トランス エンコーダ ネットワーク内にスパース アテンション メカニズムを組み込むことで、パラメータの数と計算の複雑さを軽減できます。
さまざまなデータセットでの実験結果は、変圧器エンコーダのパラメータと計算の複雑さが 90% 以上削減されていても、私たちが提案するネットワークは、他の最先端の RSICC 手法と比較して依然として競争力のあるパフォーマンスを獲得できることを示しています。
コードは次の場所で入手できます。

要約(オリジナル)

Remote sensing image change captioning (RSICC) aims to automatically generate sentences that describe content differences in remote sensing bitemporal images. Recently, attention-based transformers have become a prevalent idea for capturing the features of global change. However, existing transformer-based RSICC methods face challenges, e.g., high parameters and high computational complexity caused by the self-attention operation in the transformer encoder component. To alleviate these issues, this paper proposes a Sparse Focus Transformer (SFT) for the RSICC task. Specifically, the SFT network consists of three main components, i.e. a high-level features extractor based on a convolutional neural network (CNN), a sparse focus attention mechanism-based transformer encoder network designed to locate and capture changing regions in dual-temporal images, and a description decoder that embeds images and words to generate sentences for captioning differences. The proposed SFT network can reduce the parameter number and computational complexity by incorporating a sparse attention mechanism within the transformer encoder network. Experimental results on various datasets demonstrate that even with a reduction of over 90\% in parameters and computational complexity for the transformer encoder, our proposed network can still obtain competitive performance compared to other state-of-the-art RSICC methods. The code can be available at

arxiv情報

著者 Dongwei Sun,Yajie Bao,Xiangyong Cao
発行日 2024-05-10 16:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク