要約
タイトル:CSP:自己教師あり対照的空間準備による地理空間視覚的表現
要約:
– 地理タグの付いた画像は大量に公開されていますが、オブジェクトクラスなどのラベルはまれであり、収集には多額の費用がかかります。
– 一方、対照的学習は、限られたラベル付きデータでさまざまな自然画像や言語のタスクで驚異的な成功を収めています。
– しかし、既存の方法では、視覚的に似たオブジェクトを区別することに重要な役割を果たす地理空間情報を十分に活用できません。
– 画像の事前学習、ファインチューニング、推論段階で豊富な地理空間情報を直接利用するために、地理タグ付き画像のための自己教師あり学習フレームワークであるCSPを提案します。
– 画像とそれに対応する地理ロケーションを別々にエンコードするデュアルエンコーダを使用し、画像から効果的なロケーション表現を学習するために対照的な目的を使用します。これは、画像分類などの下流の教師ありタスクに転移できます。
– 実験の結果、CSPはiNat2018およびfMoWデータセットのモデルパフォーマンスを向上させることができます。特に、iNat2018では、様々なラベル付きトレーニングデータのサンプリング比率に対して10〜34%の相対向上があります。
要約(オリジナル)
Geo-tagged images are publicly available in large quantities, whereas labels such as object classes are rather scarce and expensive to collect. Meanwhile, contrastive learning has achieved tremendous success in various natural image and language tasks with limited labeled data. However, existing methods fail to fully leverage geospatial information, which can be paramount to distinguishing objects that are visually similar. To directly leverage the abundant geospatial information associated with images in pre-training, fine-tuning, and inference stages, we present Contrastive Spatial Pre-Training (CSP), a self-supervised learning framework for geo-tagged images. We use a dual-encoder to separately encode the images and their corresponding geo-locations, and use contrastive objectives to learn effective location representations from images, which can be transferred to downstream supervised tasks such as image classification. Experiments show that CSP can improve model performance on both iNat2018 and fMoW datasets. Especially, on iNat2018, CSP significantly boosts the model performance with 10-34% relative improvement with various labeled training data sampling ratios.
arxiv情報
著者 | Gengchen Mai,Ni Lao,Yutong He,Jiaming Song,Stefano Ermon |
発行日 | 2023-05-09 01:29:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI