Rethinking the adaptive relationship between Encoder Layers and Decoder Layers

要約

この記事では、ドイツ語を英語に翻訳する SOTA モデル Helsinki-NLP/opus-mt-de-en を使用して、エンコーダー層とデコーダー層の間の適応関係を調査します。
具体的な方法には、エンコーダとデコーダの間にバイアスのない全結合層を導入し、層の重みを異なる初期化にして、微調整と再トレーニングの結果を観察することが含まれます。
合計 4 つの実験が行われました。
この結果は、微調整のために事前トレーニングされたモデルの構造を直接変更すると、次善のパフォーマンスが得られることを示唆しています。
しかし、再トレーニングによる実験の結果を観察すると、この構造調整には大きな可能性があることがわかります。

要約(オリジナル)

This article explores the adaptive relationship between Encoder Layers and Decoder Layers using the SOTA model Helsinki-NLP/opus-mt-de-en, which translates German to English. The specific method involves introducing a bias-free fully connected layer between the Encoder and Decoder, with different initializations of the layer’s weights, and observing the outcomes of fine-tuning versus retraining. Four experiments were conducted in total. The results suggest that directly modifying the pre-trained model structure for fine-tuning yields suboptimal performance. However, upon observing the outcomes of the experiments with retraining, this structural adjustment shows significant potential.

arxiv情報

著者 Yubo Song
発行日 2024-05-14 13:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク