要約
現在、教師あり学習では、大規模な自然シーンデータセットによって事前トレーニングされ、いくつかの特定のタスクラベリングデータで微調整されたモデルが、知識転移学習を支配してきたパラダイムです。
リモートセンシングドメイン(RSD)でのタスクアウェアモデルトレーニングのコンセンサスソリューションのステータスに達しました。
残念ながら、イメージングデータのカテゴリが異なり、データアノテーションの課題が厳しいため、RSDでの大規模な事前トレーニングをサポートするのに十分な大きさの均一なリモートセンシングデータセットはありません。
さらに、教師あり学習による大規模な自然シーンデータセットのモデルの事前トレーニングと、その後の多様なダウンストリームタスクの直接微調整は、避けられないラベリングノイズ、深刻なドメインギャップ、およびタスク認識の不一致の影響を受けやすい大雑把な方法のようです。
したがって、この論文では、自己監視型事前トレーニングと強力なビジョントランスフォーマー(ViT)アーキテクチャを考慮して、自然言語処理で事前トレーニングを停止しないという考えに基づいて、ConSecutive PreTraining(CSPT)と呼ばれる簡潔で効果的な知識転移学習戦略を提案します(
NLP)、ドメインギャップを徐々に埋め、自然シーンドメインからRSDに知識を転送できます。
提案されたCSPTは、タスク認識モデルトレーニングのためのラベルなしデータの大きな可能性を解放することもできます。
最後に、RSDの12のデータセットに対して、3種類のダウンストリームタスク(シーン分類、オブジェクト検出、土地被覆分類など)と2種類の画像データ(光学およびSARなど)を含む広範な実験が実行されます。
結果は、タスク認識モデルトレーニングに提案されたCSPTを利用することにより、RSDのほとんどすべてのダウンストリームタスクが、監視された事前トレーニング、次に微調整の以前の方法を上回り、最先端(SOTA)を超えることさえできることを示しています。
高価なラベリングの消費と慎重なモデル設計なしのパフォーマンス。
要約(オリジナル)
Currently, under supervised learning, a model pretrained by a large-scale nature scene dataset and then fine-tuned on a few specific task labeling data is the paradigm that has dominated the knowledge transfer learning. It has reached the status of consensus solution for task-aware model training in remote sensing domain (RSD). Unfortunately, due to different categories of imaging data and stiff challenges of data annotation, there is not a large enough and uniform remote sensing dataset to support large-scale pretraining in RSD. Moreover, pretraining models on large-scale nature scene datasets by supervised learning and then directly fine-tuning on diverse downstream tasks seems to be a crude method, which is easily affected by inevitable labeling noise, severe domain gaps and task-aware discrepancies. Thus, in this paper, considering the self-supervised pretraining and powerful vision transformer (ViT) architecture, a concise and effective knowledge transfer learning strategy called ConSecutive PreTraining (CSPT) is proposed based on the idea of not stopping pretraining in natural language processing (NLP), which can gradually bridge the domain gap and transfer knowledge from the nature scene domain to the RSD. The proposed CSPT also can release the huge potential of unlabeled data for task-aware model training. Finally, extensive experiments are carried out on twelve datasets in RSD involving three types of downstream tasks (e.g., scene classification, object detection and land cover classification) and two types of imaging data (e.g., optical and SAR). The results show that by utilizing the proposed CSPT for task-aware model training, almost all downstream tasks in RSD can outperform the previous method of supervised pretraining-then-fine-tuning and even surpass the state-of-the-art (SOTA) performance without any expensive labeling consumption and careful model design.
arxiv情報
著者 | Tong Zhang,Peng Gao,Hao Dong,Yin Zhuang,Guanqun Wang,Wei Zhang,He Chen |
発行日 | 2022-07-08 12:32:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google