Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language


これらの問題に対処するために、私たちは data2vec のトレーニング効率を高めます。これは、いくつかのモダリティにわたって一般化された学習目標です。
data2vec 2.0 は、data2vec で導入された豊富なコンテキスト化されたターゲット表現の恩恵を受け、高速な自己教師あり学習者を可能にします。
ImageNet-1K 画像分類に関する実験では、data2vec 2.0 は 16.4 倍短い事前トレーニング時間でマスク オートエンコーダーの精度と一致し、Librispeech 音声認識では 10.6 倍短い時間で wav2vec 2.0 と同様に実行され、GLUE 自然言語理解ではそれを実行することが示されています。
再トレーニングされた RoBERTa モデルと半分の時間で一致します。
ある程度の速度を犠牲にして精度を確保すると、150 エポックでトレーニングされた ViT-L モデルで ImageNet-1K のトップ 1 精度は 86.8\% になります。


Current self-supervised learning algorithms are often modality-specific and require large amounts of computational resources. To address these issues, we increase the training efficiency of data2vec, a learning objective that generalizes across several modalities. We do not encode masked tokens, use a fast convolutional decoder and amortize the effort to build teacher representations. data2vec 2.0 benefits from the rich contextualized target representations introduced in data2vec which enable a fast self-supervised learner. Experiments on ImageNet-1K image classification show that data2vec 2.0 matches the accuracy of Masked Autoencoders in 16.4x lower pre-training time, on Librispeech speech recognition it performs as well as wav2vec 2.0 in 10.6x less time, and on GLUE natural language understanding it matches a retrained RoBERTa model in half the time. Trading some speed for accuracy results in ImageNet-1K top-1 accuracy of 86.8\% with a ViT-L model trained for 150 epochs.


著者 Alexei Baevski,Arun Babu,Wei-Ning Hsu,Michael Auli
発行日 2023-06-15 15:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク