要約
【タイトル】自己教師あり対照空間事前学習による地理空間ビジュアル表現の改善
【要約】
-大量のジオタグ付き画像が公開されているが、オブジェクトクラスのようなラベルはまれで収集にコストがかかる。
-限られたラベルデータで自己教師あり学習を用いることで、対照学習は様々な自然画像や言語タスクで大きな成功を収めている。
-しかし、既存の方法では、視覚的に似たオブジェクトを識別するために重要となる地理空間情報を十分に活用することができず、その点が課題となっていた。
-これらの課題を解決するために、ジオタグ付き画像のための自己教師あり学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案。
-CSPでは、デュアルエンコーダを使用して、画像とそれに対応するジオロケーションを別々にエンコードし、画像から有効なロケーション表現を学習するために対照的な目的を使用する。
-CSPは、画像分類などの下流の監視されたタスクに転送できるロケーション表現を習得することができる。
-実験結果は、CSPがiNat2018およびfMoWデータセットのモデルパフォーマンスを改善できることを示している。iNat2018においては、さまざまなラベル付きトレーニングデータサンプリング比率で大幅な相対改善率でモデルパフォーマンスを向上させた。
要約(オリジナル)
Geo-tagged images are publicly available in large quantities, whereas labels such as object classes are rather scarce and expensive to collect. Meanwhile, contrastive learning has achieved tremendous success in various natural image and language tasks with limited labeled data. However, existing methods fail to fully leverage geospatial information, which can be paramount to distinguishing objects that are visually similar. To directly leverage the abundant geospatial information associated with images in pre-training, fine-tuning, and inference stages, we present Contrastive Spatial Pre-Training (CSP), a self-supervised learning framework for geo-tagged im- ages. We use a dual-encoder to separately encode the images and their corresponding geo-locations, and use contrastive objectives to learn effective location representations from images, which can be transferred to downstream supervised tasks such as image classification. Experiments show that CSP can improve model performance on both iNat2018 and fMoW datasets. Especially, on iNat2018, CSP significantly boosts the model performance with 10-34% relative improvement with various labeled training data sampling ratios.
arxiv情報
著者 | Gengchen Mai,Ni Lao,Yutong He,Jiaming Song,Stefano Ermon |
発行日 | 2023-05-01 23:11:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI