Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language

要約

現在の自己教師あり学習アルゴリズムはモダリティ固有であることが多く、大量の計算リソースを必要とします。
これらの問題に対処するために、私たちは data2vec のトレーニング効率を高めます。これは、いくつかのモダリティにわたって一般化された学習目標です。
マスクされたトークンをエンコードせず、高速畳み込みデコーダーを使用して、教師表現を構築する労力を償却します。
data2vec 2.0 は、data2vec で導入された豊富なコンテキスト化されたターゲット表現の恩恵を受け、高速な自己教師あり学習者を可能にします。
ImageNet-1K 画像分類に関する実験では、data2vec 2.0 は 16.4 倍短い事前トレーニング時間でマスク オートエンコーダーの精度と一致し、Librispeech 音声認識では 10.6 倍短い時間で wav2vec 2.0 と同様に実行され、GLUE 自然言語理解ではそれを実行することが示されています。
再トレーニングされた RoBERTa モデルと半分の時間で一致します。
ある程度の速度を犠牲にして精度を確保すると、150 エポックでトレーニングされた ViT-L モデルで ImageNet-1K のトップ 1 精度は 86.8\% になります。

要約(オリジナル)

Current self-supervised learning algorithms are often modality-specific and require large amounts of computational resources. To address these issues, we increase the training efficiency of data2vec, a learning objective that generalizes across several modalities. We do not encode masked tokens, use a fast convolutional decoder and amortize the effort to build teacher representations. data2vec 2.0 benefits from the rich contextualized target representations introduced in data2vec which enable a fast self-supervised learner. Experiments on ImageNet-1K image classification show that data2vec 2.0 matches the accuracy of Masked Autoencoders in 16.4x lower pre-training time, on Librispeech speech recognition it performs as well as wav2vec 2.0 in 10.6x less time, and on GLUE natural language understanding it matches a retrained RoBERTa model in half the time. Trading some speed for accuracy results in ImageNet-1K top-1 accuracy of 86.8\% with a ViT-L model trained for 150 epochs.

arxiv情報

著者 Alexei Baevski,Arun Babu,Wei-Ning Hsu,Michael Auli
発行日 2023-06-15 15:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク