Fisher Mask Nodes for Language Model Merging

要約

事前に訓練されたモデルを微調整することは、下流の性能に大きな利点をもたらす。自然言語処理におけるBERTやその派生モデルのような事前学習済みモデルのユビキタスな性質は、タスク固有のファインチューニング・モデルの急増にもつながっている。これらのモデルは通常1つのタスクしかうまく実行できないため、マルチタスクのシナリオでは追加のトレーニングやアンサンブルを行う必要がある。成長しつつあるモデル結合の分野は、複数のタスク固有モデルを単一のマルチタスクモデルに結合するという課題に対処する、解決策を提供する。本研究では、フィッシャー重み付け平均と、モデル刈り込みにおけるフィッシャー情報の利用における先行研究からの知見を組み合わせて、Transformersのための新しいモデルマージ手法を導入する。Transformerアーキテクチャ内のマスクノードのフィッシャー情報を利用し、計算効率の良い加重平均法を考案する。本手法は、BERTファミリーのさまざまなモデルで定期的かつ大幅な性能向上を示し、計算コストの数分の一で本格的なフィッシャー加重平均を上回った。我々の結果は、現在のマルチタスク学習環境における我々の手法の可能性を証明し、スケーラビリティと新しいモデルアーキテクチャや学習シナリオへの適応性を示唆している。

要約(オリジナル)

Fine-tuning pre-trained models provides significant advantages in downstream performance. The ubiquitous nature of pre-trained models such as BERT and its derivatives in natural language processing has also led to a proliferation of task-specific fine-tuned models. As these models typically only perform one task well, additional training or ensembling is required in multi-task scenarios. The growing field of model merging provides a solution, dealing with the challenge of combining multiple task-specific models into a single multi-task model. In this study, we introduce a novel model merging method for Transformers, combining insights from previous work in Fisher-weighted averaging and the use of Fisher information in model pruning. Utilizing the Fisher information of mask nodes within the Transformer architecture, we devise a computationally efficient weighted-averaging scheme. Our method exhibits a regular and significant performance increase across various models in the BERT family, outperforming full-scale Fisher-weighted averaging in a fraction of the computational cost, with baseline performance improvements of up to +6.5 and a speedup between 57.4x and 321.7x across models. Our results prove the potential of our method in current multi-task learning environments and suggest its scalability and adaptability to new model architectures and learning scenarios.

arxiv情報

著者 Thennal D K,Ganesh Nathan,Suchithra M S
発行日 2024-05-03 13:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク