Rethinking Evaluation Protocols of Visual Representations Learned via Self-supervised Learning

要約

タイトル:自己教師あり学習によって学習した視覚表現の評価プロトコルの再考

要約:

– 自己教師あり学習(SSL)によって学習された視覚表現の品質を評価するために、ラベル付きの上流データセット(例: ImageNet)での線形探索(LP)(および$k$-NN)と転移学習(TL)が一般的に使用されます。
– 既存のSSL手法は、LPとTLのハイパーパラメータに非常に敏感であるため、これらの評価プロトコルにおいて良好なパフォーマンスを示していますが、この振る舞いは望ましいものではありません。真に汎用的な表現は、どの視覚認識タスクにも簡単に適応できるべきであり、学習された表現はLPとTLのハイパーパラメータの設定に堅牢である必要があります。
– 本稿では、最新のSSL手法を用いて、パフォーマンスの感度の原因を積極的な実験によって明らかにしようと試みました。まず、LPにおける入力正規化がハイパーパラメータに応じたパフォーマンスの変動を排除するために重要であることを発見しました。特に、入力を線形分類器に供給する前にバッチ正規化を行うことで評価の安定性が著しく向上し、また、$k$-NNとLPメトリックの不一致を解消することもできます。第二に、TLにおいて、SSLの重み減衰パラメータが学習された表現の転移性に大きく影響することを示します。この事実は、上流データセットでのLPまたは$k$-NN評価では特定できません。
– この研究の発見は、現在のSSL評価手法の欠点に注意を喚起し、再考する必要性を強調することによって、コミュニティにとって有益であると考えられます。

要約(オリジナル)

Linear probing (LP) (and $k$-NN) on the upstream dataset with labels (e.g., ImageNet) and transfer learning (TL) to various downstream datasets are commonly employed to evaluate the quality of visual representations learned via self-supervised learning (SSL). Although existing SSL methods have shown good performances under those evaluation protocols, we observe that the performances are very sensitive to the hyperparameters involved in LP and TL. We argue that this is an undesirable behavior since truly generic representations should be easily adapted to any other visual recognition task, i.e., the learned representations should be robust to the settings of LP and TL hyperparameters. In this work, we try to figure out the cause of performance sensitivity by conducting extensive experiments with state-of-the-art SSL methods. First, we find that input normalization for LP is crucial to eliminate performance variations according to the hyperparameters. Specifically, batch normalization before feeding inputs to a linear classifier considerably improves the stability of evaluation, and also resolves inconsistency of $k$-NN and LP metrics. Second, for TL, we demonstrate that a weight decay parameter in SSL significantly affects the transferability of learned representations, which cannot be identified by LP or $k$-NN evaluations on the upstream dataset. We believe that the findings of this study will be beneficial for the community by drawing attention to the shortcomings in the current SSL evaluation schemes and underscoring the need to reconsider them.

arxiv情報

著者 Jae-Hun Lee,Doyoung Yoon,ByeongMoon Ji,Kyungyul Kim,Sangheum Hwang
発行日 2023-04-07 03:03:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク