LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake Extraction from Remote Sensing Imagery

要約

湖の複雑な形状とノイズの存在により、リモート センシング画像から湖を抽出することは困難です。
既存の方法では、セグメンテーションの境界がぼやけたり、前景モデリングが貧弱になったりするという問題があります。
この論文では、正確なレイク抽出のために、LEFormer と呼ばれるハイブリッド CNN トランスフォーマー アーキテクチャを提案します。
LEFormer には、CNN エンコーダ、Transformer エンコーダ、クロスエンコーダ フュージョン、および軽量デコーダの 4 つの主要モジュールが含まれています。
CNN エンコーダは、ローカルの空間情報を復元し、細かいスケールの詳細を改善します。
同時に、Transformer エンコーダは、任意の長さのシーケンス間の長距離依存関係をキャプチャし、グローバルな特徴とコンテキスト情報をより適切に取得できるようにします。
最後に、マスク予測には軽量デコーダが使用されます。
地表水 (SW) と青海チベット高原湖 (QTPL) の 2 つのデータセットで LEFormer のパフォーマンスと効率を評価します。
実験結果は、LEFormer がこれら 2 つのデータセットで常に最先端 (SOTA) のパフォーマンスと効率を達成し、既存の手法を上回るパフォーマンスを示していることを示しています。
具体的には、LEFormer は、パラメータ数 3.61M の SW および QTPL データセットでそれぞれ 90.86% および 97.42% の mIoU を達成しますが、以前の SOTA メソッドよりも 20 倍小さいです。

要約(オリジナル)

Lake extraction from remote sensing imagery is challenging due to the complex shapes of lakes and the presence of noise. Existing methods suffer from blurred segmentation boundaries and poor foreground modeling. In this paper, we propose a hybrid CNN-Transformer architecture, called LEFormer, for accurate lake extraction. LEFormer contains four main modules: CNN encoder, Transformer encoder, cross-encoder fusion, and lightweight decoder. The CNN encoder recovers local spatial information and improves fine-scale details. Simultaneously, the Transformer encoder captures long-range dependencies between sequences of any length, allowing them to obtain global features and context information better. Finally, a lightweight decoder is employed for mask prediction. We evaluate the performance and efficiency of LEFormer on two datasets, the Surface Water (SW) and the Qinghai-Tibet Plateau Lake (QTPL). Experimental results show that LEFormer consistently achieves state-of-the-art (SOTA) performance and efficiency on these two datasets, outperforming existing methods. Specifically, LEFormer achieves 90.86% and 97.42% mIoU on the SW and QTPL datasets with a parameter count of 3.61M, respectively, while being 20x minor than the previous SOTA method.

arxiv情報

著者 Ben Chen,Xuechao Zou,Yu Zhang,Jiayu Li,Kai Li,Pin Tao
発行日 2023-08-08 17:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク