要約
多くの自己教師あり学習 (SSL) 手法では、画像入力のさまざまな「ビュー」に対して不変になるようにモデルをトレーニングします。そのためには、優れたデータ拡張パイプラインが不可欠です。
プレテキスト タスク、アーキテクチャ、または堅牢性 (例: シャム ネットワークや教師ソフトマックス センタリング) の改善に多大な努力が向けられてきましたが、これらの手法の大部分は依然として、次のような画像拡張パイプライン内の操作のランダム サンプリングに強く依存しています。
ランダムにサイズ変更されたトリミングまたは色の歪み操作。
この論文では、ビュー生成の役割とそのパフォーマンスへの影響がこれまで十分に注目されていなかったと主張します。
これに対処するために、ランダム ビューの生成を拡張して、SSL トレーニング中に事前トレーニングされたモデルをより困難なサンプルに公開するように設計された、簡単で学習不要でありながら強力なハード ビュー選択 (HVS) 戦略を提案します。
これには、次の反復ステップが含まれます。1) 複数のビューをランダムにサンプリングし、2 つのビューのペアを作成します。2) 現在トレーニングされているモデルの各ビュー ペアに対して順方向パスを実行します。3) 最悪の損失をもたらすペアを敵対的に選択し、4) 実行します。
選択したペアによる後方パス。
私たちの経験的分析では、HVS が事前トレーニング中にビューの結合に対する交差を制御することにより、内部的にタスクの難易度を高めていることが示されています。
わずか 300 エポックの事前トレーニングで、HVS は 800 エポックの DINO ベースラインにほぼ匹敵することができ、HVS の追加のフォワードによって引き起こされる減速を考慮した場合でも、依然として非常に有利です。
さらに、HVS は、ImageNet の線形評価で 0.4% ~ 1.9% の精度向上を一貫して達成し、DINO、SimSiam、iBOT、SimCLR などの複数の SSL メソッドにわたる転送タスクでも同様の向上を実現します。
要約(オリジナル)
Many Self-Supervised Learning (SSL) methods train their models to be invariant to different ‘views’ of an image input for which a good data augmentation pipeline is crucial. While considerable efforts were directed towards improving pre-text tasks, architectures, or robustness (e.g., Siamese networks or teacher-softmax centering), the majority of these methods remain strongly reliant on the random sampling of operations within the image augmentation pipeline, such as the random resized crop or color distortion operation. In this paper, we argue that the role of the view generation and its effect on performance has so far received insufficient attention. To address this, we propose an easy, learning-free, yet powerful Hard View Selection (HVS) strategy designed to extend the random view generation to expose the pretrained model to harder samples during SSL training. It encompasses the following iterative steps: 1) randomly sample multiple views and create pairs of two views, 2) run forward passes for each view pair on the currently trained model, 3) adversarially select the pair yielding the worst loss, and 4) run the backward pass with the selected pair. In our empirical analysis we show that under the hood, HVS increases task difficulty by controlling the Intersection over Union of views during pretraining. With only 300-epoch pretraining, HVS is able to closely rival the 800-epoch DINO baseline which remains very favorable even when factoring in the slowdown induced by the additional forwards of HVS. Additionally, HVS consistently achieves accuracy improvements on ImageNet between 0.4% and 1.9% on linear evaluation and similar improvements on transfer tasks across multiple SSL methods, such as DINO, SimSiam, iBOT, and SimCLR.
arxiv情報
著者 | Fabio Ferreira,Ivo Rapant,Frank Hutter |
発行日 | 2023-12-31 05:46:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google