要約
私たちは、世界中の鳥種のきめの細かい分類と生態マッピングに役立つ、メタデータを意識した自己教師あり学習 (SSL) フレームワークを提案します。
私たちのフレームワークは、対照学習 ~ (CL) とマスク画像モデリング ~ (MIM) という 2 つの SSL 戦略を統合すると同時に、地上レベルの鳥の画像で利用可能なメタデータで埋め込みスペースを強化します。
地上レベルの画像、メタデータ (位置、時間)、および対応する衛星画像を含む、新しいクロスビューの世界的な鳥種データセットに対して、ユニモーダルおよびクロスモーダル ViT を個別にトレーニングします。
我々は、細粒視覚分類 (FGVC) とクロスモーダル検索という 2 つの下流タスクを評価することにより、モデルが鳥の細粒かつ地理的に条件付けされた特徴を学習することを実証します。
私たちのフレームワークを使用して学習された事前トレーニングされたモデルは、iNAT-2021 鳥の FGVC および CUB-200-2011 および NABirds データセットの転移学習設定で SotA パフォーマンスを達成します。
さらに、私たちのモデルの優れたクロスモーダル検索パフォーマンスにより、あらゆる地理的領域にわたる種分布マップの作成が可能になります。
データセットとソースコードは https://github.com/mvrl/BirdSAT} でリリースされます。
要約(オリジナル)
We propose a metadata-aware self-supervised learning~(SSL)~framework useful for fine-grained classification and ecological mapping of bird species around the world. Our framework unifies two SSL strategies: Contrastive Learning~(CL) and Masked Image Modeling~(MIM), while also enriching the embedding space with metadata available with ground-level imagery of birds. We separately train uni-modal and cross-modal ViT on a novel cross-view global bird species dataset containing ground-level imagery, metadata (location, time), and corresponding satellite imagery. We demonstrate that our models learn fine-grained and geographically conditioned features of birds, by evaluating on two downstream tasks: fine-grained visual classification~(FGVC) and cross-modal retrieval. Pre-trained models learned using our framework achieve SotA performance on FGVC of iNAT-2021 birds and in transfer learning settings for CUB-200-2011 and NABirds datasets. Moreover, the impressive cross-modal retrieval performance of our model enables the creation of species distribution maps across any geographic region. The dataset and source code will be released at https://github.com/mvrl/BirdSAT}.
arxiv情報
著者 | Srikumar Sastry,Subash Khanal,Aayush Dhakal,Di Huang,Nathan Jacobs |
発行日 | 2023-10-29 22:08:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google