Merging Text Transformer Models from Different Initializations

要約

順列ベースのモデルのマージに関する最近の研究では、完全に異なる初期化からのモデル間の印象的な低障壁モードまたはゼロ障壁モード接続が示されています。
ただし、言語ドメインでは圧倒的な人気があるにもかかわらず、この一連の作業はまだ Transformer アーキテクチャには拡張されていません。
したがって、この研究では、別々の Transformer 最小値が類似の特徴を学習する程度を調査し、損失ランドスケープにおけるこれらの最小値間の関係を調査するためのモデル結合手法を提案します。
残りの接続、マルチヘッド アテンション、離散的シーケンシャル入力などのアーキテクチャの詳細では、同じ機能等価クラス内に留まるモデルの置換を計算するために特定の介入が必要です。
これらのモデルを私たちの手法と結合すると、マスクされた言語モデリング タスクでトレーニングされたモデルまたは言語理解ベンチマークで微調整されたモデル全体で、モデルの平均化と比較して最小値間の損失障壁が低いことが一貫してわかります。
私たちの結果は、これらのモデルの最小値が以前に理解されていたほど鮮明で孤立していないことを示しており、個別にトレーニングされた Transformer モデルをマージする将来の作業の基礎を提供します。

要約(オリジナル)

Recent work on permutation-based model merging has shown impressive low- or zero-barrier mode connectivity between models from completely different initializations. However, this line of work has not yet extended to the Transformer architecture, despite its dominant popularity in the language domain. Therefore, in this work, we investigate the extent to which separate Transformer minima learn similar features, and propose a model merging technique to investigate the relationship between these minima in the loss landscape. The specifics of the architecture, like its residual connections, multi-headed attention, and discrete, sequential input, require specific interventions in order to compute model permutations that remain within the same functional equivalence class. In merging these models with our method, we consistently find lower loss barriers between minima compared to model averaging, across models trained on a masked-language modeling task or fine-tuned on a language understanding benchmark. Our results show that the minima of these models are less sharp and isolated than previously understood, and provide a basis for future work on merging separately trained Transformer models.

arxiv情報

著者 Neha Verma,Maha Elbayad
発行日 2024-12-16 18:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク