Position Prediction as an Effective Pretraining Strategy

要約

トランスフォーマーは、その強力な表現能力により、自然言語処理(NLP)、コンピュータービジョン、音声認識など、幅広いアプリケーションで人気が高まっています。
ただし、この表現能力を効果的に利用するには、過剰適合を軽減するために、大量のデータ、強力な正則化、またはその両方が必要です。
最近、Transformerの能力は、マスクされた入力をマスクされていないコンテンツから直接または対照的に再構築することに依存するマスクされたオートエンコーダーに基づく自己監視事前トレーニング戦略によって解き放たれました。
NLPのBERTモデル、SpeechのWav2Vecモデル、そして最近ではVisionのMAEモデルで使用されてきたこの事前トレーニング戦略により、モデルは、自動エンコード関連の目的を使用して、入力のさまざまな部分のコンテンツ間の関係について学習します。
この論文では、コンテンツの再構築に代わる、斬新でありながら驚くほど単純な代替案を提案します〜-コンテンツから位置情報を提供せずに、コンテンツから位置を予測する方法です。
そのためには、Transformerが、コンテンツのみから、入力のさまざまな部分間の位置関係を理解する必要があります。
これは、口実タスクが各入力トークンのすべての可能な位置の間の分類問題である効率的な実装に相当します。
ビジョンとスピーチの両方のベンチマークで実験します。このアプローチでは、強力な教師ありトレーニングベースラインを改善し、最新の教師なし/自己教師あり事前トレーニング方法に匹敵します。
また、私たちの方法では、位置の埋め込みなしでトレーニングされたトランスフォーマーが、完全な位置情報でトレーニングされたトランスフォーマーよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Transformers have gained increasing popularity in a wide range of applications, including Natural Language Processing (NLP), Computer Vision and Speech Recognition, because of their powerful representational capacity. However, harnessing this representational capacity effectively requires a large amount of data, strong regularization, or both, to mitigate overfitting. Recently, the power of the Transformer has been unlocked by self-supervised pretraining strategies based on masked autoencoders which rely on reconstructing masked inputs, directly, or contrastively from unmasked content. This pretraining strategy which has been used in BERT models in NLP, Wav2Vec models in Speech and, recently, in MAE models in Vision, forces the model to learn about relationships between the content in different parts of the input using autoencoding related objectives. In this paper, we propose a novel, but surprisingly simple alternative to content reconstruction~– that of predicting locations from content, without providing positional information for it. Doing so requires the Transformer to understand the positional relationships between different parts of the input, from their content alone. This amounts to an efficient implementation where the pretext task is a classification problem among all possible positions for each input token. We experiment on both Vision and Speech benchmarks, where our approach brings improvements over strong supervised training baselines and is comparable to modern unsupervised/self-supervised pretraining methods. Our method also enables Transformers trained without position embeddings to outperform ones trained with full position information.

arxiv情報

著者 Shuangfei Zhai,Navdeep Jaitly,Jason Ramapuram,Dan Busbridge,Tatiana Likhomanenko,Joseph Yitan Cheng,Walter Talbott,Chen Huang,Hanlin Goh,Joshua Susskind
発行日 2022-07-15 17:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク