Object-Aware Cropping for Self-Supervised Learning

要約

タイトル:自己教師あり学習のためのObject-Aware Cropping

要約:
– 自己教師あり学習において、データ拡張のクロッピングは、画像の部分領域を選択して自己教師損失の正の視点として使用することで、成功の中心的な要素である。
– この仮定は、ランダムにクロップされたサイズ変更された画像の部分領域が情報を共有すること、学習された表現がそれを捕捉することというものである。
– しかしながら、多数の小さな物体が含まれるOpenImagesやCOCOのようなデータセットなど、現実世界の非管理データを代表するデータセットにおいては、通常のランダムクロッピングに基づく自己教師あり学習が低い性能を示すことがある。
– 提案されたobject-aware croppingは、ランダムクロップの1つまたは両方を、オブジェクト提案アルゴリズムから取得されたクロップに置き換えることを提案する。
– この方法により、モデルはオブジェクトとシーンレベルの意味的表現を学習することができ、OpenImages上では、MoCo-v2に基づく自己教師あり事前学習を使用したランダムシーンレベルのクロッピングに比べ、8.8% mAPの改善を実現する。
– COCOやPASCAL-VOCのオブジェクト検出・セグメンテーションタスクにおいて、自己教師あり学習手法の最先端を上回る重要な改善が見られた。
– このアプローチは、効率的かつ単純で汎用性があり、ほとんどの既存のコントラスティブおよび非コントラスティブな自己教師あり学習フレームワークで使用できる。

要約(オリジナル)

A core component of the recent success of self-supervised learning is cropping data augmentation, which selects sub-regions of an image to be used as positive views in the self-supervised loss. The underlying assumption is that randomly cropped and resized regions of a given image share information about the objects of interest, which the learned representation will capture. This assumption is mostly satisfied in datasets such as ImageNet where there is a large, centered object, which is highly likely to be present in random crops of the full image. However, in other datasets such as OpenImages or COCO, which are more representative of real world uncurated data, there are typically multiple small objects in an image. In this work, we show that self-supervised learning based on the usual random cropping performs poorly on such datasets. We propose replacing one or both of the random crops with crops obtained from an object proposal algorithm. This encourages the model to learn both object and scene level semantic representations. Using this approach, which we call object-aware cropping, results in significant improvements over scene cropping on classification and object detection benchmarks. For example, on OpenImages, our approach achieves an improvement of 8.8% mAP over random scene-level cropping using MoCo-v2 based pre-training. We also show significant improvements on COCO and PASCAL-VOC object detection and segmentation tasks over the state-of-the-art self-supervised learning approaches. Our approach is efficient, simple and general, and can be used in most existing contrastive and non-contrastive self-supervised learning frameworks.

arxiv情報

著者 Shlok Mishra,Anshul Shah,Ankan Bansal,Abhyuday Jagannatha,Janit Anjaria,Abhishek Sharma,David Jacobs,Dilip Krishnan
発行日 2023-04-06 20:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク