Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images

要約

超高解像度 (VHR) リモート センシング (RS) 画像分類は、RS 画像の分析と理解の基本的なタスクです。
最近、トランスフォーマーベースのモデルは、一般的な解像度 (224×224 ピクセル) の自然画像から高次のコンテキスト関係を学習するための優れた可能性を示し、一般的な画像分類タスクで顕著な結果を達成しました。
ただし、ナイーブ トランスフォーマーの複雑さは、画像サイズの増加に伴って 2 次的に増大し、トランスフォーマー ベースのモデルが VHR RS 画像 (500×500 ピクセル) 分類およびその他の計算コストの高いダウンストリーム タスクを実行できなくなります。
この目的のために、離散フーリエ変換(DFT)を介して高価な自己注意(SA)を実部と虚部に分解し、効率的な複雑な自己注意(CSA)メカニズムを提案することを提案します。
DFT の共役対称特性を利用して、CSA は単純な SA の半分以下の計算で高次のコンテキスト情報をモデル化できます。
フーリエ複素場での勾配爆発を克服するために、Softmax 関数を慎重に設計された Logmax 関数に置き換えて、CSA のアテンション マップを正規化し、勾配伝搬を安定化します。
CSAブロックのさまざまなレイヤーを積み重ねることにより、階層的な方法に従ってVHR航空画像からグローバルなコンテキスト情報を学習するフーリエ複素変換器(FCT)モデルを提案します。
一般的に使用される RS 分類データ セットに対して実施された普遍的な実験では、FCT の有効性と効率が、特に非常に高解像度の RS 画像に対して実証されています。

要約(オリジナル)

Very high-resolution (VHR) remote sensing (RS) image classification is the fundamental task for RS image analysis and understanding. Recently, transformer-based models demonstrated outstanding potential for learning high-order contextual relationships from natural images with general resolution (224×224 pixels) and achieved remarkable results on general image classification tasks. However, the complexity of the naive transformer grows quadratically with the increase in image size, which prevents transformer-based models from VHR RS image (500×500 pixels) classification and other computationally expensive downstream tasks. To this end, we propose to decompose the expensive self-attention (SA) into real and imaginary parts via discrete Fourier transform (DFT) and therefore propose an efficient complex self-attention (CSA) mechanism. Benefiting from the conjugated symmetric property of DFT, CSA is capable to model the high-order contextual information with less than half computations of naive SA. To overcome the gradient explosion in Fourier complex field, we replace the Softmax function with the carefully designed Logmax function to normalize the attention map of CSA and stabilize the gradient propagation. By stacking various layers of CSA blocks, we propose the Fourier Complex Transformer (FCT) model to learn global contextual information from VHR aerial images following the hierarchical manners. Universal experiments conducted on commonly used RS classification data sets demonstrate the effectiveness and efficiency of FCT, especially on very high-resolution RS images.

arxiv情報

著者 Yan Zhang,Xiyuan Gao,Qingyan Duan,Jiaxu Leng,Xiao Pu,Xinbo Gao
発行日 2022-10-28 08:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク