要約
タイトル:リモートセンシングのプレトレーニングに関する実証研究
要約:
– 深層学習は、航空画像の理解においてリモートセンシング(RS)研究を大きく改革し、大成功を収めた。しかし、既存の深層モデルのほとんどは、ImageNetのプレトレーニングされた重みを初期化することである。自然画像は航空画像と相対的に大きなドメインの隔たりを示し、下流の航空シーンタスクのファインチューニングのパフォーマンスを制限する可能性があるため、これは問題である。この問題に対処するため、リモートセンシングプレトレーニング(RSP)に関する実証的研究を実施する。
– 実験のために、現在最大のRSシーン認識データセットであるMillionAIDの支援を受けて、畳み込みニューラルネットワーク(CNN)とビジョンTransformers(SwinおよびViTAE)を含む一連のRSプレトレーニングバックボーンをスクラッチからトレーニングする。そして、これらのCNNおよびビジョントランスフォーマーバックボーンを使用して、シーン認識、意味セグメンテーション、物体検出、変化検出などの代表的な下流タスクにおけるRSPの影響を調査する。
– 実証研究により、RSPはシーン認識タスクにおいて独自のパフォーマンスを提供することができ、『橋』『飛行機』などのRS関連のセマンティクスを認識することができることがわかった。また、RSPは、従来のImageNetプレトレーニングによるRS画像のデータの不一致を軽減するが、下流タスクではシーン認識タスクとは異なる表現が必要であるため、タスクの不一致に苦しむ可能性があることも分かった。これらの結果から、大規模なプレトレーニングデータセットと効果的なプレトレーニング方法に対するさらなる研究が求められる。コードとプレトレーニングモデルはhttps://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensingで公開される予定である。
要約(オリジナル)
Deep learning has largely reshaped remote sensing (RS) research for aerial image understanding and made a great success. Nevertheless, most of the existing deep models are initialized with the ImageNet pretrained weights. Since natural images inevitably present a large domain gap relative to aerial images, probably limiting the finetuning performance on downstream aerial scene tasks. This issue motivates us to conduct an empirical study of remote sensing pretraining (RSP) on aerial images. To this end, we train different networks from scratch with the help of the largest RS scene recognition dataset up to now — MillionAID, to obtain a series of RS pretrained backbones, including both convolutional neural networks (CNN) and vision transformers such as Swin and ViTAE, which have shown promising performance on computer vision tasks. Then, we investigate the impact of RSP on representative downstream tasks including scene recognition, semantic segmentation, object detection, and change detection using these CNN and vision transformer backbones. Empirical study shows that RSP can help deliver distinctive performances in scene recognition tasks and in perceiving RS related semantics such as ‘Bridge’ and ‘Airplane’. We also find that, although RSP mitigates the data discrepancies of traditional ImageNet pretraining on RS images, it may still suffer from task discrepancies, where downstream tasks require different representations from scene recognition tasks. These findings call for further research efforts on both large-scale pretraining datasets and effective pretraining methods. The codes and pretrained models will be released at https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.
arxiv情報
著者 | Di Wang,Jing Zhang,Bo Du,Gui-Song Xia,Dacheng Tao |
発行日 | 2023-04-06 17:03:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI