Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model

要約

大規模ビジョン基盤モデルは、自然画像上の視覚タスクにおいて大きな進歩を遂げており、ビジョン変換器はその優れたスケーラビリティと表現能力から主要な選択肢となっている。しかし、リモートセンシングの分野では、大規模モデルの利用はまだ未開拓であり、既存のモデルは小規模であるため、性能に限界がある。本論文では、約1億個のパラメータを持つ平易なビジョン変換器に着目し、リモートセンシングタスク用にカスタマイズした大規模ビジョンモデルを提案し、その性能を調査する初の試みを行う。具体的には、画像サイズが大きく、様々な向きの物体を扱うために、我々は、変換器における本来の全注意を置き換えるために、新しい回転した様々なサイズの窓の注意を提案し、計算コストとメモリフットプリントを大幅に削減する一方で、生成した多様な窓から豊かな文脈を抽出することによって、より良い物体表現を学習する。検出タスクに関する実験では、DOTA-V1.0データセットにおいて81.16%のmAPを達成し、全ての最先端モデルに対する我々のモデルの優位性を実証した。また、下流の分類とセグメンテーションの課題においても、既存の先進的な手法と比較して、我々のモデルが競争力のある性能を示すことがわかった。さらに実験により、計算量と少数点学習に関する我々のモデルの優位性が示された。

要約(オリジナル)

Large-scale vision foundation models have made significant progress in visual tasks on natural images, where the vision transformers are the primary choice for their good scalability and representation ability. However, the utilization of large models in the remote sensing (RS) community remains under-explored where existing models are still at small-scale, which limits the performance. In this paper, we resort to plain vision transformers with about 100 million parameters and make the first attempt to propose large vision models customized for RS tasks and explore how such large models perform. Specifically, to handle the large image size and objects of various orientations in RS images, we propose a new rotated varied-size window attention to substitute the original full attention in transformers, which could significantly reduce the computational cost and memory footprint while learn better object representation by extracting rich context from the generated diverse windows. Experiments on detection tasks demonstrate the superiority of our model over all state-of-the-art models, achieving 81.16% mAP on the DOTA-V1.0 dataset. The results of our models on downstream classification and segmentation tasks also demonstrate competitive performance compared with the existing advanced methods. Further experiments show the advantages of our models on computational complexity and few-shot learning.

arxiv情報

著者 Di Wang,Qiming Zhang,Yufei Xu,Jing Zhang,Bo Du,Dacheng Tao,Liangpei Zhang
発行日 2022-08-10 09:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク