要約
大規模なセマンティック セグメンテーション ネットワークは多くの場合、高いパフォーマンスを実現しますが、サンプル サイズや計算リソースが限られている場合、そのアプリケーションは困難になる可能性があります。
ネットワーク サイズと計算の複雑さが制限されているシナリオでは、モデルは長距離の依存関係をキャプチャし、画像内の詳細な情報を復元する際に大きな課題に直面します。
我々は、高解像度の都市リモートセンシング画像を効率的にセグメント化するために、双方向アテンションフュージョンネットワーク(BAFNet)と呼ばれる軽量の双方向セマンティックセグメンテーションネットワークを提案します。
モデルは、依存関係パスとリモートローカル パスという 2 つのパスで構成されます。
依存関係パスは、大規模なカーネル アテンションを利用して、イメージ内の長距離依存関係を取得します。
さらに、マルチスケールのローカル アテンションと効率的なリモート アテンションが、リモート – ローカル パスを構築するように設計されています。
最後に、機能集約モジュールは、2 つのパスの異なる機能を効果的に利用するように設計されています。
私たちが提案した手法は、公共の高解像度都市リモートセンシング データセットであるファイインゲンとポツダムでテストされ、mIoU はそれぞれ 83.20% と 86.53% に達しました。
軽量セマンティック セグメンテーション モデルとして、BAFNet は高度な軽量モデルを精度で上回るだけでなく、浮動小数点演算で 10 倍の差異があり、15 倍の差があるにもかかわらず、2 つのデータセットで非軽量の最先端の手法と同等のパフォーマンスを示します。
ネットワークパラメータで。
要約(オリジナル)
Large-scale semantic segmentation networks often achieve high performance, while their application can be challenging when faced with limited sample sizes and computational resources. In scenarios with restricted network size and computational complexity, models encounter significant challenges in capturing long-range dependencies and recovering detailed information in images. We propose a lightweight bilateral semantic segmentation network called bilateral attention fusion network (BAFNet) to efficiently segment high-resolution urban remote sensing images. The model consists of two paths, namely dependency path and remote-local path. The dependency path utilizes large kernel attention to acquire long-range dependencies in the image. Besides, multi-scale local attention and efficient remote attention are designed to construct remote-local path. Finally, a feature aggregation module is designed to effectively utilize the different features of the two paths. Our proposed method was tested on public high-resolution urban remote sensing datasets Vaihingen and Potsdam, with mIoU reaching 83.20% and 86.53%, respectively. As a lightweight semantic segmentation model, BAFNet not only outperforms advanced lightweight models in accuracy but also demonstrates comparable performance to non-lightweight state-of-the-art methods on two datasets, despite a tenfold variance in floating-point operations and a fifteenfold difference in network parameters.
arxiv情報
著者 | Wentao Wang,Xili Wang |
発行日 | 2024-09-16 13:25:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google