On Initializing Transformers with Pre-trained Embeddings

要約

現在では、トランスフォーマーベースのモデルを最初からトレーニングするときに、事前トレーニングされた埋め込みではなく、ランダムな初期化スキームを使用することが一般的になっています。
実際、GloVe からの事前トレーニング済みの単語埋め込み、および T5 や mT5 などの言語モデルから抽出された一部のサブワード埋め込みは、ランダムな初期化と比較してはるかに悪い結果をもたらすことがわかりました。
事前トレーニングのよく知られている表現学習と転移学習の利点を考えると、これは直観に反します。
興味深いことに、BERT および mBERT 埋め込みはランダムな初期化よりもうまく機能することもわかり、事前トレーニングされた表現の利点が示されています。
この研究では、これらの混合結果に寄与する 2 つの潜在的な要因、つまりパラメーター分布に対するモデルの感度と位置エンコーディングとの埋め込み相互作用を仮定します。
事前トレーニングされた GloVe、T5、および mT5 埋め込みでは、値の分布がより広いことがわかります。
初期化の研究で議論されているように、このような大きな値の初期化は出力が飽和するため、トレーニングが不十分になる可能性があります。
さらに、より大きな埋め込み値は、実際には、加算されたときにより小さな位置エンコード値を吸収し、その結果、位置情報が失われる可能性があります。
事前トレーニングされたエンベディングを狭い範囲に標準化すること(たとえば、Xavier の規定に従って)は、Glove、T5、および mT5 エンベディングの大幅な向上につながります。
一方、BERT の事前トレーニングされた埋め込みは、サイズは大きいものの、Xavier の初期化範囲に比較的近いため、事前トレーニングされた知識を効果的に転送できる可能性があります。

要約(オリジナル)

It has become common practice now to use random initialization schemes, rather than the pre-trained embeddings, when training transformer based models from scratch. Indeed, we find that pre-trained word embeddings from GloVe, and some sub-word embeddings extracted from language models such as T5 and mT5 fare much worse compared to random initialization. This is counter-intuitive given the well-known representational and transfer-learning advantages of pre-training. Interestingly, we also find that BERT and mBERT embeddings fare better than random initialization, showing the advantages of pre-trained representations. In this work, we posit two potential factors that contribute to these mixed results: the model sensitivity to parameter distribution and the embedding interactions with position encodings. We observe that pre-trained GloVe, T5, and mT5 embeddings have a wider distribution of values. As argued in the initialization studies, such large value initializations can lead to poor training because of saturated outputs. Further, the larger embedding values can, in effect, absorb the smaller position encoding values when added together, thus losing position information. Standardizing the pre-trained embeddings to a narrow range (e.g. as prescribed by Xavier) leads to substantial gains for Glove, T5, and mT5 embeddings. On the other hand, BERT pre-trained embeddings, while larger, are still relatively closer to Xavier initialization range which may allow it to effectively transfer the pre-trained knowledge.

arxiv情報

著者 Ha Young Kim,Niranjan Balasubramanian,Byungkon Kang
発行日 2024-07-17 11:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク