Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks

要約

教師なし学習では,入力パッチをランダムにマスクし,マスクされたパッチの画素や意味的な特徴を自動エンコーダで再構成するマスク再構成学習(MRP)を行うことができる.MRPは、入力パッチをランダムにマスクし、そのマスクされた画素や意味的特徴をオートエンコーダで再構成し、下流のタスクにおいて、教師あり学習で微調整することで、従来の教師あり学習(SL)を著しく凌駕するものである。しかし、1) MRPがどのように前学習段階で意味学習を行うのか、2) なぜ下流タスクで意味学習が役立つのかはまだ不明である。そこで、本研究では、2層/1層畳み込みエンコーダ/デコーダのオートエンコーダにおいて、MRPが事前学習データセット中の全ての識別的意味を捉えることができることを理論的に示し、それに応じて、下流の分類タスクにおいてSLに対して証明可能な改善をもたらすことを示す。具体的には、プリトレーニングデータセットには、比率$1-mu$のマルチビューサンプルと比率$mu$のシングルビューサンプルが含まれ、マルチ/シングルビューサンプルは複数/単一の識別的セマンティクスを持っていると仮定する。そして、事前学習において、1) MRPエンコーダの畳み込みカーネルは事前学習データ中の全ての識別的セマンティクスを捉えること、2) 畳み込みカーネルは最大1つのセマンティクスしか捉えないことを証明する。そのため、下流の教師付き微調整では、ほとんどのセマンティクスが捕捉され、異なるセマンティクスが融合されることはない。これにより、下流の微調整されたネットワークは、カーネルと意味クラスラベルの関係を容易に確立することができる。このようにして、MRPのfine-tuned encoderは、マルチビューとシングルビューの両方のテストデータに対して、高い確率でテストエラーゼロを達成することが証明された。これに対し、[3]で証明されたように、従来のSLでは、シングルビューのテストデータに対して、$0.5程度のテスト精度しか得ることができません。これらの結果は、下流作業におけるMRPの利点を説明するものである。実験結果は、多視点データの仮定と我々の理論的含意を証明するものである。

要約(オリジナル)

For unsupervised pretraining, mask-reconstruction pretraining (MRP) approaches randomly mask input patches and then reconstruct pixels or semantic features of these masked patches via an auto-encoder. Then for a downstream task, supervised fine-tuning the pretrained encoder remarkably surpasses the conventional supervised learning (SL) trained from scratch. However, it is still unclear 1) how MRP performs semantic learning in the pretraining phase and 2) why it helps in downstream tasks. To solve these problems, we theoretically show that on an auto-encoder of a two/one-layered convolution encoder/decoder, MRP can capture all discriminative semantics in the pretraining dataset, and accordingly show its provable improvement over SL on the classification downstream task. Specifically, we assume that pretraining dataset contains multi-view samples of ratio $1-\mu$ and single-view samples of ratio $\mu$, where multi/single-view samples has multiple/single discriminative semantics. Then for pretraining, we prove that 1) the convolution kernels of the MRP encoder captures all discriminative semantics in the pretraining data; and 2) a convolution kernel captures at most one semantic. Accordingly, in the downstream supervised fine-tuning, most semantics would be captured and different semantics would not be fused together. This helps the downstream fine-tuned network to easily establish the relation between kernels and semantic class labels. In this way, the fine-tuned encoder in MRP provably achieves zero test error with high probability for both multi-view and single-view test data. In contrast, as proved by~[3], conventional SL can only obtain a test accuracy between around $0.5\mu$ for single-view test data. These results together explain the benefits of MRP in downstream tasks. Experimental results testify to multi-view data assumptions and our theoretical implications.

arxiv情報

著者 Jiachun Pan,Pan Zhou,Shuicheng Yan
発行日 2022-06-09 01:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.NE, stat.ML パーマリンク