Self-Supervised Pyramid Representation Learning for Multi-Label Visual Analysis and Beyond

要約

自己教師あり学習は多くの視覚タスクに役立つことが示されていますが、既存の手法は主に画像レベルの操作に焦点を当てており、パッチまたはピクセル レベルで下流のタスクにうまく一般化できない可能性があります。
さらに、既存の SSL メソッドは、画像スケール内および画像スケール間で上記の表現を十分に記述および関連付けることができない場合があります。
この論文では、自己教師ありピラミッド表現学習 (SS-PRL) フレームワークを提案します。
提案された SS-PRL は、適切なプロトタイプを学習することにより、パッチ レベルでピラミッド表現を導出するように設計されており、追加の学習者が画像内の固有のセマンティック情報を観察および関連付けます。
特に、SS-PRL でクロススケール パッチ レベル相関学習を提示します。これにより、モデルはパッチ スケール全体で学習した情報を集約して関連付けることができます。
モデルの事前トレーニング用に提案した SS-PRL を使用すると、マルチラベル分類、オブジェクト検出、インスタンス セグメンテーションなど、さまざまなアプリケーションに合わせてモデルを簡単に調整および微調整できることを示します。

要約(オリジナル)

While self-supervised learning has been shown to benefit a number of vision tasks, existing techniques mainly focus on image-level manipulation, which may not generalize well to downstream tasks at patch or pixel levels. Moreover, existing SSL methods might not sufficiently describe and associate the above representations within and across image scales. In this paper, we propose a Self-Supervised Pyramid Representation Learning (SS-PRL) framework. The proposed SS-PRL is designed to derive pyramid representations at patch levels via learning proper prototypes, with additional learners to observe and relate inherent semantic information within an image. In particular, we present a cross-scale patch-level correlation learning in SS-PRL, which allows the model to aggregate and associate information learned across patch scales. We show that, with our proposed SS-PRL for model pre-training, one can easily adapt and fine-tune the models for a variety of applications including multi-label classification, object detection, and instance segmentation.

arxiv情報

著者 Cheng-Yen Hsieh,Chih-Jung Chang,Fu-En Yang,Yu-Chiang Frank Wang
発行日 2022-08-30 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク