Towards Efficient and Effective Self-Supervised Learning of Visual Representations

要約

自己監督は、手作りの口実タスクからインスタンス類似性ベースのアプローチへの最近のパラダイム シフトの後、視覚表現学習のための有利な方法として浮上しています。
ほとんどの最先端の方法は、特定の画像のさまざまな拡張間の類似性を強制しますが、一部の方法では、対照的なアプローチを使用して、多様な表現を明示的に保証します。
これらのアプローチは確かに有望な方向性を示していますが、教師ありの対応物と比較すると、はるかに多くのトレーニング反復が必要です。
この作業では、これらの方法の収束が遅い理由を探り、収束が大幅に速く、表現学習にも役立つ適切な補助タスクを使用してそれらを強化することをさらに提案します。
提案された方法は、回転予測のタスクを利用して、既存の最先端の方法の効率を改善します。
複数のデータセットで提案された方法を使用すると、特に低いトレーニングエポックでパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Self-supervision has emerged as a propitious method for visual representation learning after the recent paradigm shift from handcrafted pretext tasks to instance-similarity based approaches. Most state-of-the-art methods enforce similarity between various augmentations of a given image, while some methods additionally use contrastive approaches to explicitly ensure diverse representations. While these approaches have indeed shown promising direction, they require a significantly larger number of training iterations when compared to the supervised counterparts. In this work, we explore reasons for the slow convergence of these methods, and further propose to strengthen them using well-posed auxiliary tasks that converge significantly faster, and are also useful for representation learning. The proposed method utilizes the task of rotation prediction to improve the efficiency of existing state-of-the-art methods. We demonstrate significant gains in performance using the proposed method on multiple datasets, specifically for lower training epochs.

arxiv情報

著者 Sravanti Addepalli,Kaushal Bhogale,Priyam Dey,R. Venkatesh Babu
発行日 2022-10-18 13:55:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク