R-MAE: Regions Meet Masked Autoencoders

要約

「領域」などのビジョン固有の概念は、一般的な機械学習フレームワークを物体検出などのタスクに拡張する上で重要な役割を果たしています。
教師あり学習のための領域ベースの検出器の成功と、対比学習のための画像内法の進歩を考慮して、再構成事前トレーニングのための領域の使用を検討します。
ベースラインとインスピレーションの両方としてマスクされた自動エンコーディング (MAE) から始まり、画像と領域の間の 1 対多のマッピングに対処するために調整された並列プレテキスト タスクを提案します。
このような領域は教師なしの方法で生成できるため、私たちのアプローチ (R-MAE) は MAE の幅広い適用性を継承しながら、より「領域を意識した」ものになっています。
R-MAE の開発中に徹底的な分析を実施し、効果的かつ効率的なバリアント (MAE に対して 1.3% のオーバーヘッド) に収束します。
さらに、さまざまな事前トレーニング データや下流の検出およびセグメンテーションのベンチマークに一般化すると、一貫した量的な向上が見られます。
最後に、R-MAE の動作と可能性の理解を強化するために、広範な定性的な視覚化を提供します。
コードは https://github.com/facebookresearch/r-mae で公開されます。

要約(オリジナル)

Vision-specific concepts such as ‘region’ have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more ‘region-aware’. We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE’s behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

arxiv情報

著者 Duy-Kien Nguyen,Vaibhav Aggarwal,Yanghao Li,Martin R. Oswald,Alexander Kirillov,Cees G. M. Snoek,Xinlei Chen
発行日 2023-06-08 17:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク