Blockwise Self-Supervised Learning at Scale

要約

現在の最先端のディープネットワークは、すべてバックプロパゲーションによって駆動されている。本論文では、自己教師あり学習における最新の開発成果を活用し、ブロック単位の学習ルールという形で、完全なバックプロパゲーションに代わる方法を探索する。ブロック単位の事前学習は、ResNet-50の4つの主要な層を独立に学習し、各ブロックにBarlow Twinsの損失関数を設定することで、ImageNetにおいてエンドツーエンドのバックプロパゲーションとほぼ同等の性能を示す。我々は、本手法の様々な構成要素の影響を理解するために広範な実験を行い、自己教師付き学習のブロックワイズパラダイムへの様々な適応を探求し、大規模ネットワークに局所学習ルールを拡張するための重要な道筋を徹底的に理解し、ハードウェア設計から神経科学に至るまで、その意味を理解しています。

要約(オリジナル)

Current state-of-the-art deep networks are all powered by backpropagation. In this paper, we explore alternatives to full backpropagation in the form of blockwise learning rules, leveraging the latest developments in self-supervised learning. We show that a blockwise pretraining procedure consisting of training independently the 4 main blocks of layers of a ResNet-50 with Barlow Twins’ loss function at each block performs almost as well as end-to-end backpropagation on ImageNet: a linear probe trained on top of our blockwise pretrained model obtains a top-1 classification accuracy of 70.48%, only 1.1% below the accuracy of an end-to-end pretrained network (71.57% accuracy). We perform extensive experiments to understand the impact of different components within our method and explore a variety of adaptations of self-supervised learning to the blockwise paradigm, building an exhaustive understanding of the critical avenues for scaling local learning rules to large networks, with implications ranging from hardware design to neuroscience.

arxiv情報

著者 Shoaib Ahmed Siddiqui,David Krueger,Yann LeCun,Stéphane Deny
発行日 2023-02-03 10:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク