要約
航空画像セグメンテーションは、トップダウン視点のセマンティック セグメンテーションであり、前景と背景の分布における強い不均衡、複雑な背景、クラス内の異質性、クラス間の均質性、小さなオブジェクトなど、いくつかの困難な特性を備えています。
これらの問題に対処するために、我々は Transformers の利点を継承し、収縮パスの Transformer と拡張パスの軽量の Multi-Dirated Convolutional Neural Networks (MD-CNN) を統合する AerialFormer を提案します。
当社の AerialFormer は階層構造として設計されており、Transformer エンコーダーがマルチスケールの特徴を出力し、MD-CNN デコーダーがマルチスケールからの情報を集約します。
したがって、ローカルとグローバルの両方のコンテキストを考慮して、強力な表現と高解像度のセグメンテーションをレンダリングします。
iSAID、LoveDA、Potsdam を含む 3 つの一般的なデータセットで AerialFormer のベンチマークを実行しました。
包括的な実験と広範なアブレーション研究により、当社が提案する AerialFormer が以前の最先端の方法よりも優れた顕著なパフォーマンスを発揮することが示されています。
私たちのソースコードは受理され次第公開されます。
要約(オリジナル)
Aerial Image Segmentation is a top-down perspective semantic segmentation and has several challenging characteristics such as strong imbalance in the foreground-background distribution, complex background, intra-class heterogeneity, inter-class homogeneity, and tiny objects. To handle these problems, we inherit the advantages of Transformers and propose AerialFormer, which unifies Transformers at the contracting path with lightweight Multi-Dilated Convolutional Neural Networks (MD-CNNs) at the expanding path. Our AerialFormer is designed as a hierarchical structure, in which Transformer encoder outputs multi-scale features and MD-CNNs decoder aggregates information from the multi-scales. Thus, it takes both local and global contexts into consideration to render powerful representations and high-resolution segmentation. We have benchmarked AerialFormer on three common datasets including iSAID, LoveDA, and Potsdam. Comprehensive experiments and extensive ablation studies show that our proposed AerialFormer outperforms previous state-of-the-art methods with remarkable performance. Our source code will be publicly available upon acceptance.
arxiv情報
著者 | Kashu Yamazaki,Taisei Hanyu,Minh Tran,Adrian de Luis,Roy McCann,Haitao Liao,Chase Rainwater,Meredith Adkins,Jackson Cothren,Ngan Le |
発行日 | 2023-10-01 17:04:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google